HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Mutáció keresés rákos mintákban

2016.09.10. 00:10 Travis.CG

SNP-k és más variációk keresése rákos szekvenciákban egy kicsit eltér a "hagyományos" variációk keresésétől. Először is, a ráksejtek genetikai anyaga más, mint a gazdaszervezeté, másrészt egyes ráktípusok, még ha fenotípusosan homogénnek tűnnek is, poliklonálisak lehetnek. Kicsit olyan, mintha egy populációt szekvenálnánk, de az egyedek DNS-e nem ekvimoláris mennyiségben lenne összekeverve.

Szerencsére számtalan eszköz áll rendelkezésünkre, hogy megtaláljuk ezeket az eltéréseket. A bemutatásra kerülő programokat használtam, vagy legalábbis megpróbáltam használni, de ezen a folyamatosan fejlődő területen akadnak még más kincsek is. Az összes bemutatásra kerülő alkalmazásnak van egy közös pontja, hogy bemenetnek nem csak a tumort, hanem az egészséges, úgynevezett normál mintát is kérik.

SNP-k, indelek

Crisp

A program korábbi verzióját gond nélkül használtam populációs minták vizsgálatára. A fordítása nem volt nehéz, de utána folyton sig faultolt. Nem kutattam a hiba okát, csak letöröltem.

LoFreq

Ezzel a programmal sem volt szerencsém. Már a fordításnál elakadtam. Itt sem jártam a dolgok végére, az rm parancs fájdalommentesen orvosolta a problémát.

deepSNV

Ez az R program fordult és futott. Viszont pontosan nulla variációt talált. Mivel a fejlesztő a szomszédban csoportvezető (EBI), elmentem hozzá konzultációra. A program akkor a leghatásosabb, ha legalább 100-as coverage van. Nekem egy kicsit kevesebb van. Egy másik potenciális gyengesége a programnak, hogy kis számú target esetén működik. Legalábbis minél nagyobb a vizsgált régió, a többszörös teszt korrekció annál alacsonyabb p-értéknél vág. Moritz szerint ennek ellenére exome adatokon is működnie kellene, nekem nem működött. És a cikk is csak egy kis régión teszteli. A program a nagy mélységgel szekvenált mintákban akkor is képes megtalálni a mutációkat, ha azok poliklonálisak. Ezen eltérések könnyen összetéveszthetőek a szekvenálási hibákkal, ezért a normál mintát használja annak megállapítására, milyen gyakran téveszt a szekvenáló.

Caveman

A programot házon belül fejlesztették. Egy TCGA konferencián, ahol a nagy intézetek algoritmusait hasonlították össze, ez a program találta a legkevesebb fals pozitív variációt. Sajnos nem is talál meg mindent, ebben a Broad Institute alkalmazása ebben jobb. Az erőforrás éhsége pedig óriási. A pipelinunk 32 szálon futtatja a mintákon, hogy időben legyen eredmény. (Szálanként 3GB memória kell neki.) Egy külsős partner megpróbálta saját gépre telepíteni, két hétig ment a levelezés, mert mindig volt valami gubanc. (Helpdeskesként pont belecsúsztam én is a beszélgetésbe. Végül kiderült, hogy egy 250 GB-os BAM fájlon akarta futtatni.) Szóval nem rossz a cucc, de parancssorból nem akarom futtatni.

Pindel

A Caveman csak SNP-ket keres. Indel keresésre a Pindelt használjuk. Ezt sem futtattam még parancssorból. Nálunk a kutatók nagyon óvatosan kezelik az általa nyújtott eredményeket, mert elég magas a fals pozitív találati aránya, de ez a legtöbb indel kereső alkalmazásra igaz.

Mutect

Ez a program nagyon szimpatikus volt. Először is működött, ami a sok frusztráció után igazán üdítő volt. Viszonylag gyors, nem kell neki sok erőforrás, megtalál mindent, de a fent említett konferencián azt találták, hogy nagyon sok téves találatot is visszaad. Egy másik negatívum, hogy az általa produkált kimenet egy táblázat, nem VCF, mint amit egy variáció kereső programnál elvárnánk.

Struktúrális variációk

Delly2

Ezt a programot is nagyon kedvelem. Telepítése elég egyszerű, futtatása egyértelmű. Bemenete BAM fájl, kimenete VCF, nem kényes a bemeneti fájlra A fórumok szerint transzlokációk keresése kegyetlenül lassú rajta, én ilyet nem tapasztaltam. Mindegyik variáció típusra közel azonos sebességgel futott. Az első futás eredményét minden esetben érdemes szűrni (a programban van erre beépített opció), mert azokat a variációkat is visszaadja, ami a normál mintában is előfordul. Nem teljesen világos számomra, miért kell külön futtatni a szűrést, mert így egy genomon 10-szer kell lefuttatni. Az összes variáció típushoz külön kapcsoló van, plusz a szűrés.

Brass

Ez is része a pipeline-nak. Webes felület ide vagy oda, nekem ezt a programot még nem sikerült futtatni. Ha épp nem a bemeneti adat volt alkalmatlan a programnak, akkor a farm nem fogadott új kérést, vagy új release volt, amitől kinyírták az épp futó elemzéseket. De az ötlet egészen jó benne. Először a read párok méret eltérését veszi alapul, majd a nem illeszkedő readek alapján a Velvet segítségével új kontigokat gyárt és azokat teszteli, mint lehetséges inszerciókat. A futási ideje ennek megfelelően hosszú.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr7211670304

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása