Az RNA-seq adatokat nem csak expressziós változások meghatározására használhatjuk. A readek segítségével azt is megtudhatjuk, vannak-e mintáinkban fúziós transzkriptek. A fúziós transzkripteknek alapvetően két csoportja van. Az első, amikor az RNS polimeráz valami oknál fogva nem áll meg és két egymás közelében lévő transzkriptet ír át, majd ezek a további lépések során sem válnak el.
A másik csoportba azok a fúziós transzkriptek tartoznak, amelyek mögött genomi átrendeződés van. Ilyenkor egy reciprok transzlokáció következik be a genomi DNS-ben, ami szabványos transzkriptet eredményez és arról fehérje tud képződni.
Fúziós transzkripteket elsősorban tumor mintákban keresnek, de egyre több bizonyíték van rá, hogy normál mintákban is előfordulhatnak. Bioinformatikai szempontból a fúziós transzkript keresés nem más, mint olyan szekvenciák azonosítása, amelyek a fúziókat átérik. Ezek lehet szokatlan távolságú read párok, vagy olyan readek, amelyek a töréspont egyik végén indulnak, de a másikon végződnek.
Nyilvánvaló, minél hosszabbak a readek, annál biztosabbak lehetünk a fúzió valódiságáról, de érdemes megjegyezni, hogy a referencia szekvencia alapú megközelítéseknél (vagyis ha illesztjük a readeket) vannak bizonyos nehézségek.
Először is, a géncsaládok szekvenciái hasonlóak. Ez könnyen vezethet oda, hogy az illesztőprogram képes két távoli szekvenciára elhelyezni a readeket. A tapasztalat az, hogy a szoftveres úton azonosított fúziós transzkriptek nagy százaléka műtermék, ezért ismét csak megjegyzem, kísérletes validálás nélkül ne higgyjünk el semmit, amit a képernyőn látunk.
Én alapvetően két programot használtam. Az első az EricScript. A letölthető adatbázis ember esetén nekem nem működött, de ha magam készítettem el azt a Fasta fájlokból, akkor zökkenőmentes volt. Függőségei: Samtools, amiből csak a 0.1.19 verziót fogad el és a Blat. Ez utóbbi fordítását a dokumentáció rosszul jelöli, a helyes parancs a következő:
make -f makefile BINDIR=.
A program meglepően lassú és viszonylag kevés fúziós transzkriptet ad vissza. Egyes publikációk ezt tartják a legpontosabb programnak.
Tettem egy kísérletet a SOAPFusion-el is, de ezt nem sikerül használnom. Az EnsEMBL-ről letöltött GTF állományt nem szerette. A forráskód átnézése után a következő egy sorossal tudtam olyan GTF fájlt generálni, amit elfogadott:
grep "gene_id" ref_annot.gtf | grep transcript_id | grep gene_name | grep transcript_name >soap.gtf
A másik furcsaság, hogy a kromoszóma neveknek tartalmaznia kell a chr karaktert. A furcsa ebben az, hogy a forráskódban láttam egy részt, ami azonosítás után rögtön le is vágja azt. A formázások ellenére nem készített transcript.fa állományt a referencia genomból, ami a további lépésekhez elengedhetetlen, de hibaüzenetet sem adott, ezért tovább nem dolgoztam vele. Bár nem ez lenne az első alkalom, hogy kifogott rajtam a programcsalád egy tagja.
A STARFusion egy STAR illesztőre épülő fúzió detektáló program. Előnye, hogy rendkívül gyors, hátránya, hogy 30GB memória alatt el sem érdemes indítani. A STAR illesztő futtatása rejtve marad a felhasználó elől, de nekem néhány esetben szükségem volt, hogy saját magam futtassam azt. A STARFusion ugyanis rendezett BAM fájllal dolgozik és a sortBAMmemori opcióban megadott memória nagysága egyes nagy méretű BAM fájloknál nem elégséges. Érdemes lenne ezt a paramétert kivezetni a STARFusion-be. A dokumentáció egyébként részletes és pontos. Ugyanakkor furcsa, hogy az összehasonlító cikkek előszeretettel megfeledkeznek róla.
A programok pontosságáról nincs első kézből információm, mert eddig egyetlen projekt sem, ahol fúziós transzkripteket kerestünk, jutott el a validálásig. Egyedül annyit mondhatok, hogy a TCGA adatokon a STARFusion megtalál mindent, amit ebben az adatbázisban leírtak, sőt, még többet is.
Az adatbázis elkészítéséhez a PRADA programot használták, de agresszíven kiszűrtek egy csomó transzkriptet. Például azokat is, amelyek ötnél több tumor mintában előfordultak. Hiába, nem akarják, hogy az általuk elkészített adatbázisból mások írjanak cikket.