HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Befuccsolt ötletek I: kisRNS felderítés referencia szekvencia nélkül

2014.01.30. 22:33 Travis.CG

Nagyon leegyszerűsítve a jelenlegi kisRNS azonosító módszerek első lépése, hogy a szekvenciákat egy referencia genomhoz illesztik és a szekvenciák lefedettségéből következtetnek az expresszióra. A módszer remekül működik, van rá kipróbált program.

De mi van akkor, ha nem modell organizmussal dolgozunk? A referencia genomok minősége változó, nem ritka, hogy csak a kontigok vannak meg, azok is ismeretlen szakaszokkal tarkítva. Arra gondoltam, ki kellene dolgozni egy módszert, hogy a referencia genomot mellőzni lehessen.

Az irodalom áttekintése után úgy láttam, hogy nincs még kész megoldás, bár egyes publikációk tesznek említést a dologról. Ha viszont átnézzük a hivatkozásokat, arra jutunk, hogy ott is referencia genomra illesztenek.

Az első lépés, hogy el tudjuk különíteni a jelet a zajtól. A kisRNS szekvenálás sok esetben totál RNS kivonással kezdődik, majd méret alapján választják ki a szekvenálandó tartományt. Ennek az a következménye, hogy a szekvenálás eredményeként kaphatunk heterokromatikus RNS-eket, riboszómális RNS-eket, tRNS-eket. Ezeket egy mohó összeszereléssel akartam megtalálni és kiszűrni. Ha egy szekvencia átlépi a bűvös 23 nukleotid hosszúságot, akkor eltávolítom. Ha pedig egy szekvencia sokszor előfordul, akkor az potenciális kisRNS.

A második lépés, hogy olyan paramétereket találjunk, ami segíthet a további elkülönítésben. Mivel alapvetően csak a szekvenciát ismerjük, ezért a szekvencia tulajdonságaira támaszkodhatunk egyedül. Ez pedig a méret és a GC tartalom. Ezen két tulajdonság segítségével viszont nem lehet elkülöníteni a kisRNS-eket a szeméttől.

Több módszert is kipróbáltam, de a lényeghez nem jutottam közelebb. Végül segítséget kértem az egyik szaktekintélytől, aki átadott egy frissebb cikket, ahol support vector machine segítségével megoldották ezt a feladatot. Nekik is hasonló ötletük volt, de az elkülönítésnél nem foglalkoztak a GC tartalommal, hanem a minimális szabad energiát és duplex képződést vették alapul.

Igaz, a módszerük csak annyira jó, amennyire a mirBase, ahonnan a tréning adatszettet származtatják és még a cikk szövegéből is az jön le, hogy rettenetes mennyiségű fals pozitív találat van. Ennek ellenére a módszer már most jobbnak tűnik, mint amit én csináltam, ezért a további munkát felfüggesztettem a témában.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr545785715

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása