SNP-k és más variációk keresése rákos szekvenciákban egy kicsit eltér a "hagyományos" variációk keresésétől. Először is, a ráksejtek genetikai anyaga más, mint a gazdaszervezeté, másrészt egyes ráktípusok, még ha fenotípusosan homogénnek tűnnek is, poliklonálisak lehetnek. Kicsit olyan, mintha egy populációt szekvenálnánk, de az egyedek DNS-e nem ekvimoláris mennyiségben lenne összekeverve.
Szerencsére számtalan eszköz áll rendelkezésünkre, hogy megtaláljuk ezeket az eltéréseket. A bemutatásra kerülő programokat használtam, vagy legalábbis megpróbáltam használni, de ezen a folyamatosan fejlődő területen akadnak még más kincsek is. Az összes bemutatásra kerülő alkalmazásnak van egy közös pontja, hogy bemenetnek nem csak a tumort, hanem az egészséges, úgynevezett normál mintát is kérik.
SNP-k, indelek
Crisp
A program korábbi verzióját gond nélkül használtam populációs minták vizsgálatára. A fordítása nem volt nehéz, de utána folyton sig faultolt. Nem kutattam a hiba okát, csak letöröltem.
LoFreq
Ezzel a programmal sem volt szerencsém. Már a fordításnál elakadtam. Itt sem jártam a dolgok végére, az rm parancs fájdalommentesen orvosolta a problémát.
deepSNV
Ez az R program fordult és futott. Viszont pontosan nulla variációt talált. Mivel a fejlesztő a szomszédban csoportvezető (EBI), elmentem hozzá konzultációra. A program akkor a leghatásosabb, ha legalább 100-as coverage van. Nekem egy kicsit kevesebb van. Egy másik potenciális gyengesége a programnak, hogy kis számú target esetén működik. Legalábbis minél nagyobb a vizsgált régió, a többszörös teszt korrekció annál alacsonyabb p-értéknél vág. Moritz szerint ennek ellenére exome adatokon is működnie kellene, nekem nem működött. És a cikk is csak egy kis régión teszteli. A program a nagy mélységgel szekvenált mintákban akkor is képes megtalálni a mutációkat, ha azok poliklonálisak. Ezen eltérések könnyen összetéveszthetőek a szekvenálási hibákkal, ezért a normál mintát használja annak megállapítására, milyen gyakran téveszt a szekvenáló.
Caveman
A programot házon belül fejlesztették. Egy TCGA konferencián, ahol a nagy intézetek algoritmusait hasonlították össze, ez a program találta a legkevesebb fals pozitív variációt. Sajnos nem is talál meg mindent, ebben a Broad Institute alkalmazása ebben jobb. Az erőforrás éhsége pedig óriási. A pipelinunk 32 szálon futtatja a mintákon, hogy időben legyen eredmény. (Szálanként 3GB memória kell neki.) Egy külsős partner megpróbálta saját gépre telepíteni, két hétig ment a levelezés, mert mindig volt valami gubanc. (Helpdeskesként pont belecsúsztam én is a beszélgetésbe. Végül kiderült, hogy egy 250 GB-os BAM fájlon akarta futtatni.) Szóval nem rossz a cucc, de parancssorból nem akarom futtatni.
Pindel
A Caveman csak SNP-ket keres. Indel keresésre a Pindelt használjuk. Ezt sem futtattam még parancssorból. Nálunk a kutatók nagyon óvatosan kezelik az általa nyújtott eredményeket, mert elég magas a fals pozitív találati aránya, de ez a legtöbb indel kereső alkalmazásra igaz.
Mutect
Ez a program nagyon szimpatikus volt. Először is működött, ami a sok frusztráció után igazán üdítő volt. Viszonylag gyors, nem kell neki sok erőforrás, megtalál mindent, de a fent említett konferencián azt találták, hogy nagyon sok téves találatot is visszaad. Egy másik negatívum, hogy az általa produkált kimenet egy táblázat, nem VCF, mint amit egy variáció kereső programnál elvárnánk.
Struktúrális variációk
Delly2
Ezt a programot is nagyon kedvelem. Telepítése elég egyszerű, futtatása egyértelmű. Bemenete BAM fájl, kimenete VCF, nem kényes a bemeneti fájlra A fórumok szerint transzlokációk keresése kegyetlenül lassú rajta, én ilyet nem tapasztaltam. Mindegyik variáció típusra közel azonos sebességgel futott. Az első futás eredményét minden esetben érdemes szűrni (a programban van erre beépített opció), mert azokat a variációkat is visszaadja, ami a normál mintában is előfordul. Nem teljesen világos számomra, miért kell külön futtatni a szűrést, mert így egy genomon 10-szer kell lefuttatni. Az összes variáció típushoz külön kapcsoló van, plusz a szűrés.
Brass
Ez is része a pipeline-nak. Webes felület ide vagy oda, nekem ezt a programot még nem sikerült futtatni. Ha épp nem a bemeneti adat volt alkalmatlan a programnak, akkor a farm nem fogadott új kérést, vagy új release volt, amitől kinyírták az épp futó elemzéseket. De az ötlet egészen jó benne. Először a read párok méret eltérését veszi alapul, majd a nem illeszkedő readek alapján a Velvet segítségével új kontigokat gyárt és azokat teszteli, mint lehetséges inszerciókat. A futási ideje ennek megfelelően hosszú.