HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: @Travis.CG: Nohát, nem is tudtam, hogy ilyen van... bár ahogy elnézem ezek a komponensek fizetősek... (2018.11.01. 10:14) Rossz beidegződések a bionformatikában
  • Csenge Tarnói: Ez érdekes. Most csinálok egy meta-analízist, életemben először, úgyhogy az én tudásom is felszíne... (2018.10.01. 21:39) Ez már nekem sok
  • robertherczeg: Nekem a kedvenc az volt, hogy: "Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, m... (2018.09.04. 07:47) Ezért utálom a Wilcoxon-tesztet
  • Travis.CG: ÉÉÉÉÉs megjelent! (2018.08.24. 23:31) Nehéz szülés 2
  • Szedlák Ádám: Hogy én mennyire köszönöm ezt a posztot, arra nincs szó. A kódoljon mindenki / legyen mindenki olc... (2018.06.25. 03:37) Legyen mindenki programozó

Majdnem mindent az RNA-seq-ről (10. rész)

2018.06.19. 15:40 Travis.CG

Van egy régi vicc, amiben egy öreg bácsi afrikai szafari utat nyer. Mikor hazatér, barátai kérdik tőle, milyen volt az út.
- Mit láttál?
- Láttam tevét.
- Az meg milyen?
- Tudjátok, milyen a ló?
- Tudjuk.
- Ez pont olyan, csak van egy púp a hátán.
- És még mit láttál?
- Láttam zsiráfot.
- Az meg milyen?
- Tudjátok, milyen a ló?
- Tudjuk.
- Ez pont olyan, csak hosszabb a nyaka.
- És még mit láttál.
- Láttam zebrát.
- Az meg milyen?
- Tudjátok, milyen a ló?
- Tudjuk.
- Ez pont olyan, csak csíkos.
- És még mit láttál?
- Oroszlánt.
- Az meg milyen?
- Tudjátok, milyen a ló?
- Tudjuk.
- Na, ez egyáltalán nem olyan.

Ugyan ez elmondható az egy sejtes RNA-seq-ről is. Akik dolgoztak laborban, tudják, hogy az RNS feltárása nehezebb, mint a DNS-nél. A DNS izolálást akár hallgatókra is rá lehet bízni az egyetemi oktatás során, de az RNS izolálás nem egyszerű. Még szakavatott labor dolgozók is szembesülhetnek vele, hogy több ezer sejtet tartalmazó mintájukban egy molekula RNS sincs. Most képzeljük el, hogy mindezt egy sejten kell végrehajtani! Egy sejtnyi RNS-t kell megmenteni az emésztő enzimek karmaiből. Természetesen a droplet eszközök megpróbálják még a legügyetlenebb kutatót is támogatni, de akkor sem kell meglepődni, ha a több száz mintából nem lesz mindegyikben értékelhető RNS.

Több száz minta? Miért kell több száz minta? Azért, mert ha sikerül is a feltárás és izolálás, az RNS-t sokszorozni kell. A sokszorozás nem minden régiót amplifikál fel a kellő mértékben, előfordulhat, hogy egyes genomi pozíciókról nem lesz értékelhető read. Szerencsére ez a hiba nem teljesen szisztematikus, ezért a mintaelem szám növekedésével kiküszöbölhető.

A másik ok, ami miatt több mintára van szükség, mint egy átlagos RNA-seq esetén, a tény, hogy egy sejtből indulunk ki. A szövetek génaktivitása nagy mértékben változhat. Még a hagyományos RNA-seq esetén is találkozhatunk olyan "anomáliákkal", hogy a minták közötti különbség nem a kezelésnek köszönhető, hanem annak, hogy az izolálás más napszakban történt. Egy sejt esetén mindez sokkal jobban felerősödik. A sejtciklus minden sejtben másik fázisban fog tartani, ezért a legerősebb különbség a cirkadián ritmust szabályozó génekben lesz.

Ezek után nem meglepő, hogy a kontrolok jelentősége megnő. Az ERCC egy olyan mesterséges transzkriptek gyűjteménye, ami nem mutat homológiát egyetlen humán génnel sem. Mennyisége nem függ egyetlen biológiai folyamattól sem, ezért bármilyen különbség az expresszióban csupán a szekvenálás számlájára írható. A normalizálás sokkal könnyebb lesz általa. Nem véletlen, hogy szinte valamennyi program igényli meglétét.

A másik nagyon fontos mutató a mitokondriális gének aránya a mintában, ami a feltárás sikerességének egyik mutatója. Ha valami miatt a laborban az RNS lebomlott az izolálás során, a mitokondriális RNS képes megúszni ezt, lévén hogy újabb membránnal van körbevéve.

A scater nevű eszköz egyben képes az összes lényeges minőségi mutatót meghatározni és szép abrákat készít.

A feldolgozás tehát nagyrészt ugyan úgy kezdődik, mint egy hagyományos RNA-seq esetén, de mikor elkészül a nyers táblázat a read mennyiségekkel, más eszközök után kell nézni. Említettem, hogy a legjobb eredmény a negatív binomiális regresszión alapuló módszerekkel érhető el. Sajnos a "közönséges" modell rosszul teljesít, ha sok nulla van. Kezdetben ezért a nulla tartalmú modelleket használtak (zero-inflated negative binomial), de ez is amolyan kényszer megoldás volt.

Még jelenleg is kutatócsoportok dolgoznak azon, hogy kidolgozzák a legjobb módszereket, ezért nem lehet kijelenteni, hogy a téma lezárt lenne. Inkább nézzük meg, milyen stratégiákat alkalmaznak és milyen kérdésekre keresik a választ.

Talán nem meglepő, hogy a szöveti differenciálódás az, amit a legtöbben kutatnak. (Azon belül is az immun sejtek leszármazási képét, mert vért izolálni a legkönnyebb.) Egy főkomponens analízishez hasonló projekciós módszerrel a sejteket egy olyan síkra vetítik, ami a fejlődési állapotoknak feleltethető meg. Ezt nevezik pszeudo-időnek (pseudo-time). Ezt az idővonalat vizsgálva beazonosítható a sejtek leszármazási térképe és akár új sejttípusok is felfedezhetőek.

Egy másik, felfutóban lévő terület a sejtek térbeli elhelyezkedésének vizsgálata. Ezt a Humán Sejt Atlasz kezdeményezés teszi sürgetővé. Alapvetően két módszer létezik: Az egyikben egy Gauss-i kevert modellt használnak, a másik pont jelöléses módszeren alapul (marked point process, nem tudom, mi a magyar megfelelője). A téma annyira friss, hogy jelen pillanatban még korrekt összehasonlító módszer sem létezik, hogy melyik a jobb.

Természetesen a jó öreg differenciál expresszió is létezik, de a hiányzó értékek miatt új módszereket kellett kifejleszteni. Példának okáért, míg egy hagyományos RNA-seq esetén tudjuk milyen csoportokat akarunk összehasonlítani, addig egy sejtből kiindulva gyakorlatilag teljes homályban tapogatózunk. Érdemes ezért felügyelet nélküli klaszterező módszerekkel a mintákat csoportokra bontani, mielőtt expressziós különbségeket keresnénk.

Ezzel próbálkozik az SC3 is. Mivel ez is az EBI terméke, remekül kiegészíti a scater-t. K-közép klaszterezésen alapul, ezért előre meg kell mondani, mennyi klasztert akarunk találni. Ha megtaláltuk a csoportokat, az scde csomaggal már meg is határozhatjuk a géneket.

A feldolgozás egyébként nem ritkán iteratív. Meghatározzuk a klasztereket, megnézzük a géneket, majd ha valami furcsaságot tapasztalunk, újra klaszterezünk. Ez a módszerek kiforratlansága miatt van így.

Ezzel el is érkeztünk sorozatunk záró részéhez. Megpróbáltam az RNA-seq-et annyira kivesézni, amennyire csak lehet. Bizonyára akadnak tévedések és hiányzó részek az epizódok között, hiszen senki nem lektorálta a leírtakat, de reménykedem benne, hogy sokkal hamarabb elvaul az itt felgyülemlett tudás, mint hogy kiderülnének ezek :-).

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr7014052164

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.