HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: @Travis.CG: Nohát, nem is tudtam, hogy ilyen van... bár ahogy elnézem ezek a komponensek fizetősek... (2018.11.01. 10:14) Rossz beidegződések a bionformatikában
  • Csenge Tarnói: Ez érdekes. Most csinálok egy meta-analízist, életemben először, úgyhogy az én tudásom is felszíne... (2018.10.01. 21:39) Ez már nekem sok
  • robertherczeg: Nekem a kedvenc az volt, hogy: "Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, m... (2018.09.04. 07:47) Ezért utálom a Wilcoxon-tesztet
  • Travis.CG: ÉÉÉÉÉs megjelent! (2018.08.24. 23:31) Nehéz szülés 2
  • Szedlák Ádám: Hogy én mennyire köszönöm ezt a posztot, arra nincs szó. A kódoljon mindenki / legyen mindenki olc... (2018.06.25. 03:37) Legyen mindenki programozó

RUFUS: az elfajzott PhD disszertáció

2018.06.06. 15:36 Travis.CG

A RUFUS eredetileg egy PhD disszertációnak indult, de csakhamar életcéllá vált. Egy korábbi hozzászólásomban megígértem, hogy kipróbálom, amit most be is tartok.

A GitHubról letöltött legfrissebb verzióval próbálkoztam, ami valószínűleg több problémát okozott, mint hasznot, de a végére már csak dacból sem töltöttem le a legstabilabb verziót.

Telepítés

A telepítés nem ment simán. Illetve simán ment, de használat közben derült ki, hogy nem sikerült. Az is másfél óra futás után. Szóval az alap telepítés nem működik. Leszedi a szükséges függőségeket, de valahogy a tabix kimaradt és elkeseredetten vinnyogott miatta. A program által letöltött samtools csomagból viszont könnyedén fordítottam egyet és betettem az általa elvárt könyvtárba (bin/tabix) A RUFUS.interprettel viszont komolyan meggyűlt a bajom, mert nem értettem a linker által adott hibaüzenetet. Mint kiderült előre fordított fájlok voltak az src/include könyvátrban. Azokat letöröltem és az src/external/fastahack könyvtár kódját újra fordítottam -fPIC opcióval, majd kézzel a .o kiterjesztésű állományokat az src/include könyvtárba másoltam. Végül már csak a beleégetett elérési utakkal kellett megbírkózni a scripts könyvtárban. A hibákat kijavítva már futott.

Használata

A leírás szerint képes referencia szekvencia nélkül futni, de a valóságban csupán FASTQ fájlokat nem lehet beadni neki. A bemeneti állomány BAM fájlok és egy BWA által indexelt referencia állomány! Igen, egy indexelt referencia. Nélküle meg sem nyikkan. Tesztfájlnak a TCGA-ról letöltött adatot használtam. Ez két BAM fájlt és négy VCF állományt tartalmazott, amive összehasonlíthatom az eredményeket.

runRufus.sh -s 9ea8bfdf928ö15cb155f3fö86beb8191_gdc_realn.bam -c 7db35f69f8d0c825a29073137a70dd99_gdc_realn.bam -t 2 -k 25 -r human.fa

A program 101 percet futott (Core i5, két szálon) és 5 darab SNP-t azonosított, ebből 2 mitokondriális. A Mutect2, amiben a legjobban bízom, csak ez utóbbiakat találta meg, a többit nem. A SomatiSniper volt képes egyedül megtalálni az egyik autószómális mutációt. Az egyik mutáció, amit csak a RUFUS talált meg, egy EHF génbe esett, ami érdekesnek tűnik és még le is írták bélrákban, de őszintén szólva elég nehéz elhinni, hogy ez az egy mutáció felelős ennek a betegnek az állapotáért, akit ráadásul mellrákkal diagnosztizáltak.

A másik ok, ami miatt szkeptikus vagyok az eredményeket illetően, hogy nem találtunk egyetlen TTN mutációt sem. Még Patrick is tudja, hogy rákos minták szekvenálásánál ennek lenni kell :-)

A program rengeteg átmeneti állományt készít és mivel nincs parancssori kapcsoló a szabályozásukra, rengeteg felesleges fájl marad hátra a futás után. Kicsit kényelmetlenné teszi a használatot.

A stabil verziót is megpróbáltam lefuttatni, hogy ne mondhassátok: bizonyára a forráskódban való turkálásom rontotta el a programot, de az sem fordult le magától és ott is ugyan úgy megvannak a beégetett elérési utak.

Összegzés

A program valamikor valószínűleg referencia mentes variációkat keresett, legalábbis a legelső kód GitHubon még FASTQ fájlokat olvasott. Időközben viszont elkezdett hízni és lett belőle valami, ami már köszönő viszonyban sincs az eredeti célokkal. Ennek nem tudom, mi lehet az oka. Talán a referencia még mindig több előnyt kínál, mint amennyi problémát okoz, amit végül barátunk is belátott. A másik lehetőség, hogy a rákos minták nagyobb kihívást jelentenek a program számára, mint a trió adatok, amin eredetileg fejlesztették. Minden esetre én nem akarom többet használni.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr4414024898

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.