HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Majdnem mindent az RNA-seq-ről (2.rész)

2016.11.04. 01:55 Travis.CG

A szekvenálás minőségének meghatározása szinte teljesen megegyezik a DNS szekvenálásnál alkalmazott módszerekkel. Ez nem is meglepő, hiszen miután a minta előkészítés során az RNS-t átírtuk DNS-é, a gép ugyan úgy hajtja végre a szekvenálást. A FastQC ugyan úgy használható.

Az értékelés során viszont előfordulhat, hogy engedékenyebbek lehetünk. Ha kisRNS-eket szekvenálunk, az adaptor kontamináció nem hiba, a szekvenálás sajátosságából adódik. Egyszerűen a read hosszabb, mint a 20-24 nukleotidból álló molekula. Degradóm esetén úgyszintén.

De a felülreprezentált szekvenciák előfordulása sem feltétlenül hiba. Egy erősebben expresszálódó gén jelenlétét a program értelmezheti PCR hibának. Ha nem egy ismert adaptor a szekvencia, figyelmen kívül hagyhatjuk.

Attól, hogy a szekvencia maga jó, még nem jelenti azt, hogy értékelhető eredményt kapunk belőle. Illesztés után újabb minőségi ellenőrzést kell tartanunk. Különösen, ha egy sejtes szekvenálással van dolgunk. Erről lesz részletesebben is írás, most csak annyit mondok, ha a sejt feltárás során nem vagyunk elég óvatosak, az RNS bomlásnak indulhat és szekvenálás után csak annyit látunk, hogy kromoszómális génre alig, mitokondriális génre viszont töménytelen mennyiségű read illeszkedik. Ezen pedig a minta újraszekvenálása sem fog segíteni.

Érdemes tehát megnézni mennyi read esik arra a régióra, amit szekvenálni akarunk. KisRNS-eknél ezen kívül előszeretettel használják a méret eloszlásokat is. Egy sejtes szekvenálásnál több diagnosztikai ábrát is készítünk. Mivel nem ritka, hogy százas nagyságrendben szekvenálnak sejteket, ezért az X tengelyen az össz readszám szerepel, míg az Y tengelyen a százalékos mitokondriális génre illeszkedő readek száma vagy bármilyen génre illeszkedő readek aránya szerepel. Így viszonylag kevés ábrán sok mintát lehet áttekinteni. Ha az R-ben interaktív módon rajzoljuk ki a pontokat, klikkeléssel azonosíthatjuk a kiugró értékeket. Erre majd az egy sejtes posztban térek ki. Ha el nem felejtem.

Egy másik diagnosztikai eljárás a gén lefedettség (gene body coverage). Itt az összes génre illeszkedő lefedettséget ábrázolják, miután 100 nukleotid hosszúságúra normalizálják azokat. Ha bármelyik vég degradálásnak indul, ezen az ábrán könnyen észrevehető. Több, más statisztikával együtt az RSeqQC segítségével készíthetünk ilyen ábrákat.

A FastQC elég jó, de ha sok mintánk van, különböző, csak számunkra logikus könyvtár struktúrába rendezve, a FastQC használata elég macerás. Még akkor is, ha parancssorból is meghívható. Szerencsére a lusta elfoglalt embereknek fejlesztett multiQC megoldást nyújt erre.

Csupán egyetlen paramétert vár, a mintáinkat tartalmazó könyvtár nevét. A program rekurzívan bejárja az összes alkönyvtárat, a megtalált fájlok alapján megpróbálja kitalálni, milyen programokat futtattunk és HTML alapú összefoglalókat készít. Ennél egyszerűbb programot el sem lehet képzelni.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr5711844945

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása