HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Majdnem mindent az RNA-seq-ről (8.rész)

2018.01.28. 22:41 Travis.CG

Az RNA-seq adatokat nem csak expressziós változások meghatározására használhatjuk. A readek segítségével azt is megtudhatjuk, vannak-e mintáinkban fúziós transzkriptek. A fúziós transzkripteknek alapvetően két csoportja van. Az első, amikor az RNS polimeráz valami oknál fogva nem áll meg és két egymás közelében lévő transzkriptet ír át, majd ezek a további lépések során sem válnak el.

A másik csoportba azok a fúziós transzkriptek tartoznak, amelyek mögött genomi átrendeződés van. Ilyenkor egy reciprok transzlokáció következik be a genomi DNS-ben, ami szabványos transzkriptet eredményez és arról fehérje tud képződni.

Fúziós transzkripteket elsősorban tumor mintákban keresnek, de egyre több bizonyíték van rá, hogy normál mintákban is előfordulhatnak. Bioinformatikai szempontból a fúziós transzkript keresés nem más, mint olyan szekvenciák azonosítása, amelyek a fúziókat átérik. Ezek lehet szokatlan távolságú read párok, vagy olyan readek, amelyek a töréspont egyik végén indulnak, de a másikon végződnek.

Nyilvánvaló, minél hosszabbak a readek, annál biztosabbak lehetünk a fúzió valódiságáról, de érdemes megjegyezni, hogy a referencia szekvencia alapú megközelítéseknél (vagyis ha illesztjük a readeket) vannak bizonyos nehézségek.

Először is, a géncsaládok szekvenciái hasonlóak. Ez könnyen vezethet oda, hogy az illesztőprogram képes két távoli szekvenciára elhelyezni a readeket. A tapasztalat az, hogy a szoftveres úton azonosított fúziós transzkriptek nagy százaléka műtermék, ezért ismét csak megjegyzem, kísérletes validálás nélkül ne higgyjünk el semmit, amit a képernyőn látunk.

Én alapvetően két programot használtam. Az első az EricScript. A letölthető adatbázis ember esetén nekem nem működött, de ha magam készítettem el azt a Fasta fájlokból, akkor zökkenőmentes volt. Függőségei: Samtools, amiből csak a 0.1.19 verziót fogad el és a Blat. Ez utóbbi fordítását a dokumentáció rosszul jelöli, a helyes parancs a következő:

make -f makefile BINDIR=.

A program meglepően lassú és viszonylag kevés fúziós transzkriptet ad vissza. Egyes publikációk ezt tartják a legpontosabb programnak.

Tettem egy kísérletet a SOAPFusion-el is, de ezt nem sikerül használnom. Az EnsEMBL-ről letöltött GTF állományt nem szerette. A forráskód átnézése után a következő egy sorossal tudtam olyan GTF fájlt generálni, amit elfogadott:

grep "gene_id" ref_annot.gtf | grep transcript_id | grep gene_name | grep transcript_name >soap.gtf

A másik furcsaság, hogy a kromoszóma neveknek tartalmaznia kell a chr karaktert. A furcsa ebben az, hogy a forráskódban láttam egy részt, ami azonosítás után rögtön le is vágja azt. A formázások ellenére nem készített transcript.fa állományt a referencia genomból, ami a további lépésekhez elengedhetetlen, de hibaüzenetet sem adott, ezért tovább nem dolgoztam vele. Bár nem ez lenne az első alkalom, hogy kifogott rajtam a programcsalád egy tagja.

A STARFusion egy STAR illesztőre épülő fúzió detektáló program. Előnye, hogy rendkívül gyors, hátránya, hogy 30GB memória alatt el sem érdemes indítani. A STAR illesztő futtatása rejtve marad a felhasználó elől, de nekem néhány esetben szükségem volt, hogy saját magam futtassam azt. A STARFusion ugyanis rendezett BAM fájllal dolgozik és a sortBAMmemori opcióban megadott memória nagysága egyes nagy méretű BAM fájloknál nem elégséges. Érdemes lenne ezt a paramétert kivezetni a STARFusion-be. A dokumentáció egyébként részletes és pontos. Ugyanakkor furcsa, hogy az összehasonlító cikkek előszeretettel megfeledkeznek róla.

A programok pontosságáról nincs első kézből információm, mert eddig egyetlen projekt sem, ahol fúziós transzkripteket kerestünk, jutott el a validálásig. Egyedül annyit mondhatok, hogy a TCGA adatokon a STARFusion megtalál mindent, amit ebben az adatbázisban leírtak, sőt, még többet is.

Az adatbázis elkészítéséhez a PRADA programot használták, de agresszíven kiszűrtek egy csomó transzkriptet. Például azokat is, amelyek ötnél több tumor mintában előfordultak. Hiába, nem akarják, hogy az általuk elkészített adatbázisból mások írjanak cikket.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr9613403045

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása