HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

De novo assembly

2011.09.05. 14:50 Travis.CG

A mai nap a de-novo szekvencia összeszerelésről írok egy rövid ismertetőt, nagyon alap szinten, gyakorlati tudnivalókkal.

Mért kell?

Amikor a tudományos-fantasztikus filmeket nézzük, akkor olyan képet festenek a szekvenálásról, mintha az egy könyv olvasása lenne. Elindulunk az elején, eljutunk a végére. Ez elég szemléletes analógia, ezért a továbbiakban is ezzel a hasonlattal fogok élni.

Ez a világon, sehol nincs így. Sajnos egyszerre csak a teljes genomokhoz képest igen rövid szakaszokat tudunk megszekvenálni. Mikor még laborban dolgoztam, akkor ez a hosszúság kb. 400 bázispár volt, utána a szekvenálás minősége folyamatosan romlott. (Témavezetőm előszeretetttel nyomta a kezembe a szekvenciákat, hogy kézzel javítsam ki őket a leolvasott színkódok alapján. Hiába, a PhD-s munkaerő olcsóbb, mint még egyszer szekvenálni :-) ) Ezt Sanger típusú szekvenálásnak hívják. Nagy pontosságú, de lassú.

Tehát a szekvenálás kis darabokat eredményez, a könyves hasonlathoz visszatérve, a könyv lapjait. Az új típusú szekvenálások meggyorsították a szekvenálás menetét, de rövidebb szekvenciákat eredményeztek. (Nem oldalakat kapunk, csak mondatokat). Az egyik szerencsénk, hogy a szekvenciák átfednek. Ez alapján tudjuk őket összerakni. De ahogy egy regényben is előfordulhatnak ismétlődő mondatok, úgy a genomban is. Tehát eldönteni, hogy egy mondat a 100. oldalra, vagy a 231-re illik, nehéz feladat.

Metódusok

A megoldást különféle algoritmusok nyújtják. Az első és legegyszerűbb, keressünk egyező, kisebb darabokat, összeillesztjük és kiterjesztjük a szekvenciát. Ezek a mohó (greedy) algoritmusok. Mohók, mert nem nézik meg, hogy más helyre érdemesebb-e beépíteni a szekvenciát, csak kiválasszák azt, amivel a legnagyobb hosszúságot elérhetik.

A népszerűbbek a de-bruijn gráfon alapulnak. A csomópontok az egyes szekvenciák, az élek pedig a lehetséges kapcsolódások más szekvenciákkal. Az ismétlődő szakaszok (repeatek) esetén a gráf bonyolult formát vehet fel. ( Egyes algoritmusok az ismétlődések mennyiségét az oda helyezhető szekvenciák számából megpróbálja becsülni. Szakszóval a coverage-ből. )

Napjainkban a hibrid összeszerelők adják a legjobb eredményt. Két vagy több technológián alapuló szekvencia készletből szerelik össze a végső genomot. Például egy hosszabb, de pontatlanabb (szakzsargonnal 454) és egy rövidebb, de pontosabb (Illumina) szekvenálás eredményét ötvözik.

Alkalmazások

Az utóbbi időben kipróbáltam pár de-novo programot, ezek eredményéről fogok beszámolni. Egy bakteriális genomot kellett összeszerelnem, a szekvenciák 454-ből származtak.

1. SOAPDenovo: A kínai intézet szuperfegyvere. Elvileg ezzel rakták össze az óriáspanda genomját. Azért elvileg, mert nekem nem sikerült működésre bírni. A bináris állomány floating point exception-t adott, de még azt sem sikerült kitalálnom, hogy melyik modulban. Nagy csalódás volt.

2. Velvet: A Velvet szimpatikus kis program. Forrásból pillanatok alatt fordítható. Kevés paramétert lehet állítani benne, abból is a legfontosabb a k-mer, ami azt mondja meg, hogy milyen hosszú átfedő darabokat keressen a szekvenciákban. Ha 31-nél nagyobb k-mert szeretnénk használni, akkor újra kell forgatni a programot. Kezeli a color-space szekvenciákat (van egy szekvenálási típus, ahol nem a gimiben megismert ATGC bázisokat kapjuk vissza, hanem egy színkódolt szekvenciát. A kódolásnak gyakorlati haszna van, de néha megkeseríti a bioinformatikusok sorsát) Ismeri a paired-end és mate-pair szekvenciákat is. Két programból áll. Az első készít egy keresőtáblát (velveth), a második pedig megpróbálja megoldani a gráfot (velvetg). A színkódolt szekvenciák esetén szükség van a szekvenciák elő- és utókezelésére. 263 contigot rakott össze nekem.

3. CLC Genomic Workbench: Aki utálja a parancsok gépelgetését, annak itt a klikkelős mindenes. Pénzes program, de 14 napig élvezhetjük a használatát. Van benne egy de-novo modul, ami szerintem egy mohó algoritmuson alapul, legalábbis a paraméterek alapján erre következtetek. Gyakorlatilag bármit beadhatunk neki. Nekem 89 contigot eredményezett a fenti adatsorra. De azt is csináltam, hogy különböző szekvenálásokból a contigokat egybe ömlesztettem, és azzal is tudott mit kezdeni (kevesebbet csinált belőlük). Ezt persze nem javaslom, mert az egyik paramétere, hogy mekkora átfedő szakaszokat vizsgáljon, és itt az átfedő és a teljes szekvencia hosszának arányát várja. Ha tehát különböző hosszúságú szekvenciákat akarunk összerakni vele, akkor a beállításokkal kizárhatjuk egyik vagy másik szekvencia típust. A CLC kezeli az összes szekvenálási technológiát.

3. Mira: Ez a program a legbonyolultabb az összes közül. Rengeteg paramétere van, a bemeneti és kimeneti fájlokra névkonvenció. Viszont ha beállítottuk, akkor elindul és megcsinál mindent. Számol statisztikát, többféle kimenetet produkál, képes hibrid üzemmódra. Alapértelmezett beállításokkal is 36 contigot rakott össze. Cserébe sokáig fut. Nem kezeli a színkódolt szekvenciákat.

Melyik a legjobb

Annak eldöntésére, hogy melyik eredményt hihetjük el, sok paraméter dönt. Az első, hogy hány darabot tud a szekvenciákból összeilleszteni. Értelemszerűen minél többet épít össze minél kevesebb kontigba, annál jobb. A kontigok átlagos hossza is hasznos mérőszám. Van egy N50 (egyes esetekben N25 is) nevű jelzőszám is, ami azon kontigok közül, amelyek az összes kontig teljes hosszának a felét teszik ki, mekkora a legkisebb mérete. Más szóval a legkisebb hosszú kontignak a mérete.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr633204255

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása