iRAP: RNA-seq feldolgozás EBI módra

2015.10.12. 00:05 Travis.CG

Az iRAP-al úgy kerültem kapcsolatba, hogy az itteni csoport is fejleszt egy RNA-seq feldolgozó alkalmazást és az egyik megbeszélésen kiderült, az „túloldal” is csinál valami hasonlót. Engem ért a megtisztelő feladat, hogy kipróbáljam.

Telepítés

A megszámlálhatatlan függőség telepítésére az egyik megoldás az oly népszerű virtuális gép. Aki türelmetlen, nyugodtan használja. Aki szereti a kihívást, próbálja ki a manuális installálást. A normális C programokkal nincs is gond, de a számtalan, olykor egymással is inkompatibilis Perl modulokkal annál inkább. Biztos vagyok benne, hogy a legtöbbre nincs is szükség, csak ha már telepít az ember, akkor nem árt frissíteni a CPAN-t és az összes unit teszt modult, különben nem mennek fel a csomagok. Nekem a Bio::DB::Sam csomaggal voltak gigászi küzdelmeim, mert ennek a telepített samtools túl új volt, az automatikus telepítő pedig ezzel nem tud mit kezdeni. Megoldás: kézzel felrakni a modulokat, majd szintén kézzel futtatni a scripts/irap_install.sh -s . -x data és scripts/irap_install.sh -s . –v

Ezzel fel is áll a rendszer.

Használat

A dokumentációban minden le van írva. Kivéve, hogy az annotációs GTF-nak a következő dolgokat kell tartalmaznia: gene_id, transcript_id, exon_number, gene_name. Teljesen véletlenül az UCSC-ről pont ezt tölthetjük le, de ha az NCBI-ról szerezzük be a fájlokat, akkor nem lesz szerencsénk. A könyvtár struktúra sem lehet tetszőleges. Egy E. coli genom BWA-val indexelve mindenkép kell (contamináció detektálás). Ha hiányzik, nincs eredmény. A readeket a raw_data/fajnev könyvtárban kell elhelyezni. A referencia szekvenciát pedig a reference/fajnév könyvtárba. Már csak annyi a dolgunk, hogy eldöntsük, milyen eszközöket válasszunk a feldolgozáshoz.

Eredmény

A program nagyon-nagyon sokáig fut. Négy napig csak a referenciával bíbelődött (4 szálat használtam). Az annotációt ugyanis R szkriptekkel dolgozza fel, ami megmosolyogtat. Az egymással inkompatibilis programok ki- és bemenetét saját szkriptekkel konvertálja át, ami szintén rossz hatással van a sebességre. Létezik egy LSF ütemezőt használó része is, de nekem nem sikerült működésre bírni, könnyebb volt írni egy saját wrappert.

A rendszer előnye, hogy viszonylag hibatűrő. Ez alatt azt értem, hogy a hiba nélkül lefutott részeredményeket a program felhasználja és ott folytatja a munkát, ahol a működése megszakadt. Ebből adódóan, ha egy új analízist akarunk végezni és van átfedés az előző munkafolyamattal, akkor a program csak a szükséges lépéseket hajtja végre.

Programok összehasonlításához ezért ideális. Megnézhetjük például, hogy a STAR illesztő a cufflinks2-vel vagy a HT-seq-el ad-e jobb eredményt. A kimenet könyvtárak szerkezete is követi ezt a koncepciót. Az illesztő program nevével jelzett könyvtárban találjuk az illesztéseket és alkönyvtárakban fogjuk megtalálni a rá épülő lépések eredményeit. A fenti példánál maradva a star/cufflinks2 könyvtárban találjuk az expressziós értékeket.

Összegzés

A rendszer egyszerűbbé teszi a különböző programok használatát, mert képes megoldani a konverziót közöttük. Lassan fut, de a részeredmények perzisztensek. Ebből adódóan rettenetesen sok tárhelyet felemészt. Mint minden programnak, ami könnyebbé akarja tenni az emberek életét, ennek is a legnagyobb hibája, hogy nem képes kezelni az egyedi kísérleti elrendezéseket. Viszont a szokványos differenciál expressziós kísérleti felálláshoz tökéletes.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr687959806

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Az élet kódjai

HTML

Az élet kódjai

Keresés

Friss topikok

Archívum

Feedek

Címkék

Egyéb