Majdnem mindent az RNA-seq-ről (5. rész)

2017.05.15. 00:28 Travis.CG

Nincs két egyforma szekvenálás. A kapott read mennyiség futásról-futásra változik. Ha csupán összeszámoljuk a vizsgált egységre (génre, transzkriptre, exonra) eső readeket, nem tudjuk összehasonlítani az expressziót más szekvenálásokkal. Szükség van olyan eljárásokra, ahol a szekvenálásból eredő, technikai jellegű különbségeket eltűntetjük. Ez a normalizálás.

Normalizálás után minden különbség, amit találunk, feltételezhetően a biológiai rendszerek különbségeiből adódik. Mint oly sok problémára a bioinformatikában, a normalizálásra is többféle megoldás létezik. Szerencsére nem kell választanunk a különféle eljárások közül. A legtöbb alkalmazás eleve elkötelezi magát egyik vagy másik módszer mellett, tehát ha programot választunk, azzal eleve meghatározzuk, milyen normalizálást fogunk használni.

A legjobb szándék ellenére sem tudom összeszedni az összes létező eljárást, de megpróbálok annyit leírni, amennyivel csak találkoztam. A másik fontos megjegyzés, hogy egy-egy módszer fejlődik az idők során, nem biztos, hogy úgy implementálták azt az alkalmazott programokban, ahogy én itt leírom, de az elv nagyon hasonló.

CPM

Ez a legegyszerűbb eljárás, miRNS-ek esetén ezt használják. A génre (transzkriptre, exonra) eső readszámot elosztják a teljes readszámmal, majd megszorozzák egymillióval, hogy ne kelljen túl kicsi számokkal dolgozni. Innen ered a neve is (count per million).

FPKM/RPKM

Ez nem egy eljárás, hanem egy eljárás család. A kiszámítás módja úgy kezdődik, mint a CPM esetén, tehát egymillió readre normalizálnak, de a teljes readszám mellett a gén hosszára és a read hosszára is normalizálnak. A különbség, hogy miként határozzák meg a read hosszát (a read pár mindkét tagját, vagy csak egyik tagját számolják) és a gén hosszát (teljes gén hossz, effektív hosszúság). A kezdetek kezdetén nem foglalkoztak a readek méretével, csak a gén teljes hosszával osztottak. Később rájöttek, hogy a hosszabb readekből kevesebb illeszkedhet a vizsgált egységre, ezért gén hosszából levonták a readek hosszát. (Úgy is mondhatnánk, a gén hossza helyett azzal számoltak, hogy hány pozícióra illeszkedhet egy read, anélkül, hogy lelógna.) Később tovább módosították a metódust, mert a PacBio szekvenálás miatt a readek hosszabbak lehetnek, mint egy gén.

TPM

A TPM esetén a számolás nagyon hasonló az FPKM-hez, de számolás sorrendje fordított. Először normalizálnak a gén hosszára és csak másodsorban a readek mennyiségére. Miért teszik ezt? Bármilyen szekvenálást is veszünk, a gének TPM normalizált értékének összege azonos lesz. Ha például sejtvonalakat szekvenálunk nagy mennyiségben, akkor nem tudunk hagyományos differenciál expressziót számolni (nincs kontroll, kezelés, a mindent-mindennel összehasonlítást pedig nehéz kiértékelni), de tudunk klaszterezni és kereshetünk mintázatokat. Ezen analízis pontossága szerintem kérdéses, de kivitelezhető és a TPM normalizálás a legjobb választás ilyen esetben.

TMM

Ezen eljárás során abból a feltételezésből indulunk ki, hogy a gének nagy tömege nem mutat differenciál expressziót. Tehát ha vesszük az összes gén expressziójának mediánját, akkor attól magasabb vagy alacsonyabb értékek egy bizonyos százalékáról kijelenthetjük, hogy nem mutat expressziós változást. Ezen gének expresszióját felhasználva kiszámolhatunk egy szorzó faktort, amivel az expressziókat átválthatjuk egy másik minta expressziós értékére. Mivel egy kisérlet több mintát is tartalmazhat, önkényesen kijelölnek egy referencia mintát, majd ehhez számolják ki a szorzó faktort. A módszer nagyon hatékony, de mint említettem akkor, ha a gének egy része nem mutat differenciál expressziót. Ha tehát egy normál egeret akarunk hasonlítani egy genetikailag módosított, mutagénnek kezelt, stresszelt állattal, akkor számíthatunk rá, hogy kevésbé lesz hatékony. A másik potenciális vagy inkább filozófiai eredetű probléma, hogy a referencia nem esik át semmilyen módosításon. Tehát ha a módszerből bármilyen eltérés adódik, akkor ez a minta mentes lesz tőle.

DESeq

Ennek a normalizálásnak nincs külön neve, de mivel a DESeq és a DESeq2 ezt használja, rendszerint így hivatkoznak rá. Nagyon hasonlít a TMM-hez, de ahelyett, hogy önkényesen jelölne ki egy mintát referenciának, mesterségesen kreál egyet. Vagyis minden minta kap szorzó faktort.

TC/UQ/Med

Ez a három módszer nagyon hasonló. Az egy génre eső readszámot elosztják egy számmal, majd megszorozzák az összes minta teljes readszámának átlagával. Hogy mi ez a szám, az a módszertől függ. TC (total count) esetén ez az adott minta teljes readszáma. UQ (upper quartile) esetén a nullától különböző readszámok felső kvartilise, míg Med (median) esetén ez a közép érték lesz (ugyan csak a nullánál nagyobb read számokat véve alapul).

SCRAN

Ez szintén nem egy módszer neve, hanem egy programcsomag egy sejtes RNA-seq elemzéshez, de tartalmaz egy normalizálási eljárást is, direkt ehhez a fajta szekvenáláshoz. A fenti módszerek legtöbbje nem használható egy sejtes adatok esetén, mert sok génről egyszerűen nem keletkezik read. (Bár nekem egy EBI-os fickó azt mondta, nyugodtan használjam a CPM-t) Ez a módszer az úgynevezett spike-in kontrollok használatával igyekszik orvosolni a problémát. A spike-in egy mesterséges RNS szekvencia, amit ismert koncentrációban keverünk a mintákhoz. Mivel mesterséges, a róla képződő readek csak ide illeszkednek és mivel ismert koncentrációban adjuk hozzá, a különbség csak is technikai lehet. Ezzel természetesen még nem oldódott meg a probléma teljesen, mert egy sejtes szekvenálásnál a sejt ciklust szabályozó gének különböző mértékben aktívak, de ez a csomag ezt is megpróbálja orvosolni.

Összefoglalás

Megpróbáltam minél több normalizálási módszert összeszedni, de a lista nem teljes. Újabb és újabb (és bonyolultabb) módszerek jelennek meg, rengeteg cikk hasonlítgatja a különböző módszereket, különböző eredménnyel. Egy dologban minden cikk egyetért: normalizálni kell. Nem tudom, melyik a legjobb, az egyetlen tanács, amit adhatok: elsősorban programcsomagot kell választani. Ha olyan programot választunk, ami a legtöbb igényünket kielégíti, támogatott, sokan használják, akkor nem kapunk túl rossz eredményeket és a kéziratba nem fognak belekötni a bírálók (legalábbis a módszerekbe nem. Vagy nem nagyon.)

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr8012449173

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Az élet kódjai

HTML

Az élet kódjai

Keresés

Friss topikok

Archívum

Feedek

Címkék

Egyéb