HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

A referencia genom: jobb, ha van, de jobb, ha nincs

2018.05.27. 12:00 Travis.CG

A második generációs szekvenáló platformok read mérete kicsi. Önmagukban, az esetek döntő többségében, használhatatlanok. A szekvenálási módszerekre a referencia genom teszi fel a koronát. A vizsgálatok tehát annyira lesznek jók, amennyire a referencia genom.

Egy picit nézzük át a referencia genomok fejlődését a humán genomon keresztül! Kezdetben ez csak egy FASTA fájl volt, minden kromoszómáról egy kópiában tartalmazott megvétózhatatlan információt. Minden, ami egy kicsit is más volt, "mutáció", abnormalitás lett és elkezdték gyűjteni olyan adatbázisokba, mint amilyen a dbSNP. A bonyolult részeket N-el töltötték fel és bíztak a tudomány töretlen fejlődésében, hogy megoldja ezeket a problémákat. Mindenki boldog volt. Kivéve talán Ventert, akinek a referencia genomját nem akarta az egész világ használni.

Azután megindult az emberek szekvenálása. Egyre többet, egyre alaposabban szekvenáltak. A kezdeti N-el feltöltött lyukakat foltozták, de közben egyre több bizonyíték gyűlt össze, hogy a referencia genom bizony nem egy mindenkire alkalmazható séma. A variabilitás meglepő mértéket öltött. Nem csak "pötty" mutációk voltak (snpk, kis indelek), hanem kópia szám változások, genetikai átrendeződések. Rákos genomokat szekvenáltak, amelyek mintha mit sem törődtek volna a genom stabilitással. A read méretek még mindig szánalmasan kicsik voltak és bár az IBM böhöm gépeket akart eladni a rutin szintű de-novo assemblyhez, a tudós közösség továbbra is referenciához illesztett.

A szép, csodálatos referencia genom elkezdett szeplősödni. Először extra kontigok kerültek bele. Olyan szekvenciák, amelyekről gyanították, melyik kromoszómáról származnak, de pontos helyét nem ismerték. Aztán gyakori haplotípusok, mert a hipervariábilis régiókra rémálom volt az illesztés. Közben egyes mutációk gyakorisága megnövekedett és már nem tűntek olyan abnormálisnak, mint korábban. Bizony, bizony a referencia már nem volt olyan előnyös, mint annak idején. Már nem volt mindenki boldog.

Elkezdtek tehát olyan megoldásokat keresni, amikor nincs szükség referencia genomra. Hiszen egyes vizsgálatokhoz nem is volt kifejezetten szükség rá, csak arra, hogy megmondjuk a különbséget két minta között.

Az egyik ilyen program a RUFUS volt. Elsősorban trió adatok feldolgozására tervezték, de igazából bármilyen összehasonlító vizsgálatra alkalmas, akár tumor-normál mintákra is alkalmazható. Érzékenysége a szerző szerint megegyezik a GATK érzékenységével, de nem igényel olyan időigényes előkészítést, mint az, tehát a futási idő is rövidebb.

Hasonló ötlet húzódik meg a Salmon/Kallisto páros mögött is. (És itt kicsit kapcsolódunk a "Majdnem mindent az RNA-seq-ről" sorozatunkhoz is.) Differenciál expressziós vizsgálatoknál is csak az érdekel minket, milyen expressziós eltérések vannak a mintáink között. Mindkét program a nyers FASTQ fájlokon fut, elhagyhatjuk a referencia indexelését, és az illesztést. Alacsonyabb a memória igény, gyorsabban kapunk eredményeket. Én a Kallistot használtam egy olyan adatsoron, amit korábban TopHat/Cufflinks-el már feldolgoztam. Az igazság az, hogy az eredmények drasztikusan eltértek. Érdekes módon általában alacsonyabb readszámok jöttek ki Kallistoval.

Egy másik ötlet szerint nincs szükség a referencia eltávolítására, csupán egy modernebb köntösbe kell bújtatni azt, ami jobban megfelel a kor követelményeinek. A FASTA fájl helyett egy gráfot kellene használni. Ebbe aztán felvihetjük az alternatív szekvenciákat, mint amilyenek a haplotípusok, struktúrális átrendeződések. Az illesztés is átalakulna, mivel nem csak a legjobb útvonalat kellene megtalálni, hanem az eltéréseket is, mindezt egy diploid genomon. A gráfokról, mint számítógépes adatstruktúrákról tudni kell, hogy tárolásuk memória intenzív. A gráf bejárása NP-teljes, ezért hatékony indexelés kell. Szerencsére ilyen módszer már létezik (cikk), de a BWA teljesítményét nyújtó index két éve még 300GB tárhelyet igényelt. Ráadásul, míg a BWA referencia indexelése csak kis mértékben befolyásolja az illesztést, addig a gráf indexelés egy trade-off. A hatékonyabb indexel több találatunk lesz, de a tárhely igény növekedik. Kisebb indexel viszont találatokat fogunk veszteni.

Ígéretes kezdeményezés, de még messze van attól, hogy laptopunkra telepítsük és ráeresszünk több száz egy sejtes adatot.

Közben azt sem szabad elfelejteni, hogy a szekvenálás maga is változik. Annak idején poénnak szántam a humán genom szekvenálást MinION-al, de azóta ez komollyá vált. A cikk csak egy koncepciót vázolt fel, mert hatékony, Illumina-szintű eredményt nem értek el, ráadásuk a szükséges számítási teljesítmény egy kisebb intézmény igényeivel vetekedett, de az üzenet egyértelmű: meg lehet csinálni. Ugyan akkor a cikknek egy másik fontos üzenete is van: a jelenlegi formátumok és programok a rövid read méretre vannak szabva. Teljesen használhatatlanok lesznek ha széles körben elterjednek a harmadik generációs szekvenálási eljárások.

Akár így, akár úgy, de a hagyományos értelembe vett referencia szekvencia el fog tűnni. Jó volt a maga idejében, de szerepe az idővel egyre jobban háttérbe fog szorulni és végül elfoglalja méltó helyét az GCG, a CD-n terjesztett Blast adatbázis és a kézzel bepötyögött szekvencia fájlok mellett.

2 komment

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr113913420

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Travis.CG 2018.05.31. 20:25:11

Nem használtam. De most van egy kis időm, kipróbálom. Úgyis kezdek kifogyni a bioinfós témákból.
süti beállítások módosítása