HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Mert a kmer az jó

2022.02.13. 22:43 Travis.CG

Bevallom, a teljesen egyszerű ötletek, amelyekre önmagukon jóval túlmutató dolgok épülhetnek, lenyűgöznek. Ettől olyan érzésem lesz, hogy a világban némi rend is uralkodik.

Például vegyük a kmereket. A kmer egy hulla egyszerű ötlet. A DNS szekvenciát ugyan olyan hosszú darabokra vágjuk és megszámoljuk, melyikből mennyi van. Faék egyszerűségű ötlet. Mire lehet használni?

  1. Meghatározhatjuk, hogy van-e kontamináció a mintánkban.
  2. Két szekvenciát összehasonlíthatunk (pl. azonos fajból vannak-e)
  3. Referencia nélkül megmondhatjuk, hogy diploid vagy haploid a szekvencia
  4. Megnézhetjük, van-e adaptor szennyezés
  5. Metagenomikai taxonómia meghatározást végezhetünk
  6. Expressziós különbségeket számolhatunk
  7. Trió adatokban SNP-ket kereshetünk (referencia használata nélkül)
  8. Azonosíthatjuk a repeat elemeket
  9. Megbecsülhetjük a genom méretet
  10. Genomokat szerelhetünk össze

Izgalmasan hangzik? Meghiszem azt! Ráadásul van egy adatstruktúra, amit mintha pont erre a módszerre szabtak volna: a hasítótábla. Mintha csak azt akarta volna valaki, hogy a bioinformatikusoknak legyen egy jó napja.

A kmer alapú vizsgálódás annyira népszerű, hogy külön eszközök vannak rá. Az egyik a KAT. Segítségével készíthetünk hisztogrammot, amivel megtudhatjuk, hogy a különböző gyakoriságú kmerekből mennyi van. Ennek egy szebb módja, amikor a kmer gyakoriságot a GC arány függvényében ábrázolják (kat gcp parancs). Ennek segítségével megmondhatjuk, van-e kontamináció a mintánkban. Ez hasznos lehet egy de-novo összeszerelés előtt.

Minták összehasonlítására használható a kat comp parancs. Például a readek és a belőlük készült genom kmeres összehasonlítása megmutathatja, mennyire teljes az összeszerelés. Ha ugyanis a kettő különböző, akkor a genom építés során nem használtunk fel minden readet.

A program számos ábrát is el tud készíteni, erre nem térnék ki külön. Arra viszont igen, hogy a memória használat tetemes lehet. A program egyik gyengesége, hogy minden egyes alkalommal, ha elfogy a rendelkezésre álló memória, akkor a korábban használt memória mennyiség kétszeresét foglalja le. Ez egyrészt gyorsítja a programot, viszont elég hamar feléli a gép erőforrásait, akár csak a mesebeli sakktábla a király vagyonát.

Ha ilyesmivel van dolgunk, megpróbálkozhatunk a jellyfish használatával, ami szintén egy kmer alapú eszköz, a KAT is ezen alapul. Nem olyan gyors, viszont tapasztalatom alapján kevesebb memóriával is beéri, az általa elkészített kmer táblázatot pedig a KAT is képes olvasni.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr6616746658

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása