Befuccsolt ötletek I: kisRNS felderítés referencia szekvencia nélkül

2014.01.30. 22:33 Travis.CG

Nagyon leegyszerűsítve a jelenlegi kisRNS azonosító módszerek első lépése, hogy a szekvenciákat egy referencia genomhoz illesztik és a szekvenciák lefedettségéből következtetnek az expresszióra. A módszer remekül működik, van rá kipróbált program.

De mi van akkor, ha nem modell organizmussal dolgozunk? A referencia genomok minősége változó, nem ritka, hogy csak a kontigok vannak meg, azok is ismeretlen szakaszokkal tarkítva. Arra gondoltam, ki kellene dolgozni egy módszert, hogy a referencia genomot mellőzni lehessen.

Az irodalom áttekintése után úgy láttam, hogy nincs még kész megoldás, bár egyes publikációk tesznek említést a dologról. Ha viszont átnézzük a hivatkozásokat, arra jutunk, hogy ott is referencia genomra illesztenek.

Az első lépés, hogy el tudjuk különíteni a jelet a zajtól. A kisRNS szekvenálás sok esetben totál RNS kivonással kezdődik, majd méret alapján választják ki a szekvenálandó tartományt. Ennek az a következménye, hogy a szekvenálás eredményeként kaphatunk heterokromatikus RNS-eket, riboszómális RNS-eket, tRNS-eket. Ezeket egy mohó összeszereléssel akartam megtalálni és kiszűrni. Ha egy szekvencia átlépi a bűvös 23 nukleotid hosszúságot, akkor eltávolítom. Ha pedig egy szekvencia sokszor előfordul, akkor az potenciális kisRNS.

A második lépés, hogy olyan paramétereket találjunk, ami segíthet a további elkülönítésben. Mivel alapvetően csak a szekvenciát ismerjük, ezért a szekvencia tulajdonságaira támaszkodhatunk egyedül. Ez pedig a méret és a GC tartalom. Ezen két tulajdonság segítségével viszont nem lehet elkülöníteni a kisRNS-eket a szeméttől.

Több módszert is kipróbáltam, de a lényeghez nem jutottam közelebb. Végül segítséget kértem az egyik szaktekintélytől, aki átadott egy frissebb cikket, ahol support vector machine segítségével megoldották ezt a feladatot. Nekik is hasonló ötletük volt, de az elkülönítésnél nem foglalkoztak a GC tartalommal, hanem a minimális szabad energiát és duplex képződést vették alapul.

Igaz, a módszerük csak annyira jó, amennyire a mirBase, ahonnan a tréning adatszettet származtatják és még a cikk szövegéből is az jön le, hogy rettenetes mennyiségű fals pozitív találat van. Ennek ellenére a módszer már most jobbnak tűnik, mint amit én csináltam, ezért a további munkát felfüggesztettem a témában.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr685785715

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Az élet kódjai

HTML

Az élet kódjai

Keresés

Friss topikok

Archívum

Feedek

Címkék

Egyéb