Majdnem mindent az RNA-seq-ről (7. rész)

2017.10.27. 14:59 Travis.CG

Az RNA-seq analízis eddigi lépései elég mechanisztikusak voltak. Igazából némi számítógépes ismereten túl nem igényeltek komolyabb tudást. A most következő lépésekhez viszont szükség van a biológiai tanulmányokra és a kísérlet viszonylag alapos ismeretét.

A génlista hasznos, de önmagában nem ad semmi támpontot arra vonatkozóan, milyen biológiai folyamatok változtak meg. Fel kell tennünk a kérdést: miért ezt a génlistát kaptuk eredményül és miért nem egy másikat?

Amikor kezelésnek teszünk ki egy biológiai rendszert, bizonyos anyagcsere útvonalak és jelátviteli rendszerek aktiválódnak. Ezeknek a fehérjék (és rajtuk keresztül a gének) csupán építő kövei.

A nem szakmabeli olvasóimnak - amennyiben vannak - had éljek egy hasonlattal. Képzeljük el, hogy egy építményt felrobbantunk és a törmelékből kell megmondanunk, milyen épület állt eredetileg. Találunk sok szalmát, vályogot. Gondolhatjuk, hogy egy parasztkunyhó volt, de ennyi bizonyíték alapján akár egy istálló is lehetett. A downstream analízisben is előfordulhatnak hasonló bizonytalanságok.

Miért? Először is, nem ismerjük minden gén minden funkcióját. Nem ismerjük az összes anyagcsere útvonalat és az ismert útvonalak összes tagját sem. Az annotációkat folyamatosan fejlesztik, de ennek a fejlődésnek az üteme nem egyenletes minden adatbázisban, amit a munkánk során használunk. Akiben ezek alapján felmerül, hogy az így kapott eredmények nem elég objektívek, az jó nyomon jár. Itt jön elő a kísérletes validáció fontossága.

Ennek ellenére szerintem ez a legizgalmasabb lépés, mert az így kapott eredmények megvitatása sokkal közelebb áll a tudományhoz, mint a korábbiak. Hiszen a tudomány lényege nem a pipettázás, PCR futtatás vagy a szekvenciák illesztése, hanem válaszadás bizonyos kérdésekre.

Annotációk

Ontológiák

Az ontológiák közös jellemzője, hogy a kategóriákat mesterségesen egy hierarchikus rendszerbe tömöríti, majd a minden kategóriába elhelyezi a géneket. Mesterséges mivolta miatt nem mentes a hibáktól, az elnevezések nyakatekertek, de jó kezdő pont, hogy egy áttekintő képet kapjunk az eredményekről. Többféle ontológia létezik. A leghíresebb a GO, de létezik már ontológiája betegségeknek, rákos géneknek is.

Protein interakciók

Habár az egyetemi oktatásban azt a képet sugalmazzák, hogy a fehérjék amolyan magányos vadnyugati bosszúállók, azért ne feledkezzünk meg róla, hogy ezeknek a figuráknak is van lova, hatlövetűje és kalapja, amelyek nélkül nem tudják beteljesíteni végzetüket (és a rosszfiúkét sem). Ugyan így, a fehérjék is komplexekbe tömörülnek. Ezeket a kapcsolatokat is megtaláljuk olyan adatbázisokban, mint amilyen az IntAct.

Anyagcsere útvonalat

A folyamatok sorrendiségét és a résztvevő molekulák kapcsolatának jellegét az anyagcsere adatbázisok írják le. A leghíresebb talán a KEGG, de a Reactome is sok információt tartalmaz.

Online eszközök

Nem kell feltétlenül több száz soros szkripteket írnunk, ha meg akarjuk ismerni egy génlista titkait. Több weboldal is létezik, ahol csak annyi a dolgunk, hogy feltöltjük az eredményül kapott géneket és megláthatjuk a feldúsuló funkciókat.

Panther

Ez az adatbázis igazi veterán, de folyamatos fejlesztés alatt áll. Többféle gén azonosítóval is megbirkózik, a GO mellett gén családokra is kereshetünk, illetve anyagcsere utakra. Használata rendkívül egyszerű, de publikáció kész ábrákat ne várjunk tőle.

Reactome

Az adatbázis limitált vizsgálati eszközöket is rendelkezésünkre bocsát. Humán központú, ami annyit jelent, hogy a más fajból származó génlisták humán megfelelőjét használja, amit azután emberi anyagcsere utakra térképez. Értelem szerűen, ha rendszertanilag messzebb álló élőlényeket vizsgálunk, több lesz a hibás eredmény.

David

A microarray időkből visszamaradt mindenes eszköz, amit érdemes nagy óvatossággal kezelni. 2010 és 2016 között nem jött ki új verzió belőle. Előszeretettel használják csoportvezetők, ha valamit nagyon gyorsan akarnak megtudni és az egyetlen elérhető bioinformatikus épp elment aludni, nyaralni.

Enrichr

Ezt az eszközt nem használtam rendszeresen, csak egy Coursera kurzus részeként ismerkedtem meg vele. A többi eszközhöz képes puritánabb.

String

Ez az eszköz tavaly újult meg, így rajta lehet jelenlegi listánkon. Érdekessége, hogy rengeteg automatikus megoldás próbálja kitalálni, mit is akar a felhasználó, így viszonylag kevés képzés után is használható. Másik pozitív tulajdonsága, hogy a fehérjék kapcsolatának jellege állítható a merev, kísérletekkel igazolt kapcsolattól a teljesen hipotetikus szövegbányászattal talált asszociációig. Az eredmények akár XML-ben is kimenthetőek, hogy Cytoscape-pel tovább formázhassuk.

Klikkelős programok

A jól ismert programok, mint amilyen a Geneious, Golden Helix, CLC Genomics Workbencs mind képesek valamilyen szinten effajta elemzésekre, de mivel egyiket sem használtam személyesen, róluk nem írok.

Cytoscape

Ez a program a hálózati kapcsolatok fenegyereke. Beépített moduljainak köszönhetően képes génlisták elemzésére, de ami talán ennél is fontosabb, fejlett vizualizációs módszerekkel az eredményeket publikációnkba illeszthetjük. Ha van is probléma a programmal, az is inkább a hanyagul megírt bővítményeknek köszönhető, nem a főprogramnak.

FunRich

Ezt még egy kutató gépén láttam, akkor próbáltam ki. Furcsasága, hogy csak és kizárólag Windows gépeken működik (.Net alapú). Egy éve nem frissítették, így az alapját képző adatbázisok megbízhatósága kérdéses. Viszont alapbeállításokkal is képes szép ábrákat produkálni, kezelése egyszerű.

Bioconductor

Természetesen nem lehet teljes az eszközök felsorolása, ha nem térnénk ki az R-ben használható csomagokra.

gage

A gage csomag elsősorban KEGG adatok elemzésére lett kifejlesztve. Bemenete a normalizált expressziós táblázat és az összehasonlítandó csoportok. Eredménye a felülreprezentált anyagcsere utak listája, amit a pathview csomaggal meg is jeleníthetünk. Hátránya, hogy csak NCBI azonosítókkal működik.

ReactomePA

Ha már úgyis az anyagcsere útján járunk, meg kell említeni a ReactomePA-t is. Ez és a következő három csomag ugyan annak az embernek köszönhető, ezért használatuk mutat némi hasonlóságot. Az eredmények hasonló módon vizualizálhatóak. A csomag kifejezetten a Reactome weboldal információit használja, csupán R-en keresztül.

DOSE

Mint említettem, nem csak géneknek van ontológiája. A DOSE csomaggal betegségekhez asszociált géncsoportokat mutathatunk ki.

clusterProfiler

Ez a korona a programhármas tetején. Nem csak KEGG és GO feldúsulásokat kereshetünk, de kapunk hasznos eszközt a gén azonosítók megfeleltetéséhez, interfészt a DAVID webszolgáltatáshoz is és kiterjedt vizualizációs eszközöket az eredmények megjelenítéséhez. Ezt a csomagot nagyon szeretem. Hátránya, hogy a képi eredményeknek nincs jelmagyarázata, így nehéz megállapítani, hogy melyik szín milyen p-értéknek felel meg.

Összefoglalás

Az itt bemutatott eszközök egy kis biológiát csempésznek az amúgy unalmas génlistákba. De az így kapott eredményeket értelmezni is kell, amiben egyik eszköz sem fog segíteni. El kell helyezni azokat a kísérlet kontextusába, hogy végül támogassák (vagy éppenséggel cáfolják) hipotézisünket.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr1312941517

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Az élet kódjai

HTML

Az élet kódjai

Keresés

Friss topikok

Archívum

Feedek

Címkék

Egyéb