Az SNP-k és kis indelek megtalálása újgenerációs szekvenálásokban nem egy egyszerű feladat, de számtalan megoldás létezik rá. Van viszont egy olyan rendszer, ahol a hagymányos variació detektaló algoritmusok csődöt mondanak, nevezetesen poolozott minták esetén.
De miért is jut eszébe valakinek ekvimolárisan összeönteni több DNS mintát, hogy azt szekvenálja meg? A válasz egyszerű: nem kívancsi az egyes mintákban található variációkra, hanem populáció szintű változásokra kíváncsi. Mondhatnánk, hogy már van bárkódolás, ahol az összeöntött minták eredete is azonositható a szekvenálás után, de ennek van egy viszonylag komoly limitációja: maximum 96 mintát lehet bárkódolni.
Poolozott minták kiértékelésére több program is létezik. A teljesség igénye nélkül most három kerül bemutatásra: Crisp, vipR, SNVer.
Crisp
Ez a program viszonylag régi motoros, de egyes cikkek szerint ez a csúcs. Folyamatosan fejlesztik. A legfrissebb verzió már C-ben készült és a forráskódja nem elérhető. Az illesztett BAM fájlokat olvassa elképesztő sebességgel. Az SNP-k mellett megtalálja az indeleket is.
vipR
Annak ellenére, hogy ez a program újabb, mint a Crisp, már hekkelés nélkül nem használható. Először is a program alapját képező skellam R modul nem érhető el a 3-as verziószám felett. Ha használni akarjuk, tegyük a következőt: Töltsük le a skellam csomagot, majd módosítsuk a vipR.R szkriptet:
#require(skellam)
source("pskellam.r")
source("pskellam.sp.r")
Természetesen legyenek egy könyvtárban az R programok. Így már használhatjuk...Illetve mégsem. Sajnos a saját káromon kellett megtanulnom, hogy ez a szkript nem szereti, ha _ karakter van a referencia szekvencia azonosítójában. A BAM fájlokat először mpileup formátumra hozzuk a samtools-al, majd egy másik programmal egyszerűsített mpileup formátumra konvertáljuk, és csak ez után etetjük meg az R szkripttel. Habár a leírás szerint képes indeleket azonosítani, az én mintámon nem találta egyet sem. A sebességével nem volt különösebb problémám.
SNVer
Ez a program Java-van készült. Folyamatosan fejlesztik. A működése viszonylag egyszerű, viszont annyira lassú, hogy a poszt írásának idején még nem futott le. Most már nagyon kíváncsi vagyok, mire is képes ez az algoritmus.
Összegzés
Annak ellenére, hogy még nem láttam az SNVer eredményeit, a CRISP-et tekintem a leghasználhatóbban, még akkor is, ha nem talál meg minden SNP-t. A vipR elavult csomagjaival és az SNVer lassúságával nem nyerte el a tetszésemet.
További olvasnivalók
http://www.ncbi.nlm.nih.gov/pubmed/20529923