Uszítsd rá a Krakent! A metagenomra.

2019.01.12. 23:42 Travis.CG

De még jobb, ha a Kraken2-t. Az agresszív név mögött egy metagenomikai taxonómiai elemző program lapul. Bárki, aki dolgozott már metagenomikai szekvenciákkal, az tudja, hogy az eljárás mögött nem áll más, mint begyűjteni mindent, ami "talán jó lesz valamire". A környezetünkből vett mintákban DNS-t keresnek és megszekvenálják.

Mivel a mintákról alapvetően semmilyen információnk nincs, ezért az első lépés általában a taxonok meghatározása. Ezt segíti elő a Kraken2. A szekvenciák taxonómiai helyének meghatározása során megkeresi a legősibb közös őst, ha tudja.

Telepítés

A program telepítése rendkívül egyszerű. A függőségek száma minimális, csupán a sed/find/wget és természetesen a Perl. Használ pár saját, C++-ban megírt kisebb programot is. Nem kötelező, de telepíthetjük az NCBI Blastot is, ahonnan a dustmasker/segmasker programokat fogja használni. (Bár ezek telepítése erőseb ajánlott, ha az alacsony komplexitású régiók okozta problémákat el akarjuk kerülni.) Csak kiadjuk az install_kraken2.sh parancsot a megfelelő könyvtárnévvel és kész.

Természetesen ez még nem használható. A taxonómiai elemzéshez szükség van taxonómiai információkra is. A program természetesen letölti nekünk a megfelelő adatokat, és elvégzi a k-mer bontást is, de ez a lépés értelem szerűen sokkal lassabb. Én 8 magot adtam a programnak, ami elég volt, hogy 5 óra alatt telepítse a standard adatszettet. Ha csak egy 16S adatbázist hozunk létre, az már 4 perc alatt is megvan.

Futtatás

A program futtatása is igen egyszerű. Megadjuk a fájlokat és az adatbázist, az eredményt pedig a képernyőre kapjuk. Minden szekcenciára elvégzi a taxonómiai elemzést. A dokumentációval ellentétben az input formátumot a program határozza meg, nem kell nekünk definiálni, de azt fontos megadnunk, hogy a szekvenciák tömörítettek-e. Ennek hiányában a fájlok azonosítása nem fog működni. Célszerű az --use-names opciót is használni, különben csak taxid-kat kapunk, ami nem nagy segítség.

A futási idővel nincs gond, percek alatt kapunk eredményt. Akinek viszont nem áll rendelkezésére elég memória, a mini-krakennel próbálkozhat, aminek természetesen limitációi vannak, ami az eredmények pontosságán is látszik. Sajnos a kimenet nem tartalmaz semmilyen pontozó rendszert, ami segítségével eldönthetnénk, mennyire jók az eredmények. Az eredmény fájlban ugyan megtaláljuk mennyi kmer esett az adott taxonra, de tüzetesebb átvizsgálásnál találtam olyan eseteket, ahol read nagy része ismeretlen. Négy-öt kmer alapján kijelenteni, hogy egy 300 hosszú szekvencia X taxonhoz tartozik, szerintem nem szerencsés.

Az egyetlen szűrési lehetőségünk a --confidence. A szerzők is elismerik, hogy ez nem egy tökéletes megoldás, de abban segíthet, hogy csökkentsük a fals pozitív találatok számát.

Összegzés

A taxonómiai besorolás nem könnyű annak hierarchikus felépítése miatt. Ehhez jön még a horizontális géntranszfer, ami igen megnehezíti ezt a feladatot. A Kraken2 igyekszik a legjobbat adni és meg sem próbál több, lenni, mint ami: a szekvenciákról megmondja, melyik taxonhoz tartozhat. Nincs vizualizáció, a kimenet kicsit szerencsétlen, de stabilan működik és folyamatosan fejlesztik. Önmagában kevés, hogy puclikáció kész eredményt kapjunk, de egy munkafolyamat részeként igen hasznos.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr7214555796

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Az élet kódjai

HTML

Az élet kódjai

Keresés

Friss topikok

Archívum

Feedek

Címkék

Egyéb