HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Plink kínok

2019.03.17. 22:14 Travis.CG

A plink az a fajta program, ahol a dokumentáció elméletileg mindent tartalmaz, a gyakorlatban mégis szinte használhatatlan. Mégpedig azért, mert hiányzik az információ, hogy milyen kombinációban használjuk azokat. A dolgot tovább bonyolítja, hogy a program két verzióban létezik. Egy 1.9 jelzésű bétában és egy 2.0 alfában, amit felváltva kell használni, mert még nem jutottak el oda, hogy minden funkció mindkét helyen meglegyen. (Természetesen ott van az eredeti program is, csakhogy az még nem képes közönséges VCF fájlt beolvasni.)

Ráadásul egyes funkciókat eltávolítottak a stabil verzióhoz képest, mert úgy találták, hogy más programok sikeresebben valósítják meg azt. Ilyen például a haplotípus azonosítás.

Ami viszont megmaradt, hogy a plink mindegyik elemzése saját külön eredményfájlt készít, egyedi kiterjesztéssel. Így biztosak lehetünk benne, hogy nem írjuk fellül eredményeinket. A kimenet kevés kivételtől eltekintve szóközzel elválasztott szöveges fájl, de hogy ne legyen egyszerű az életünk, változó hosszúságú szóköz van mindenhol, hogy nézegetve szép, rendezett külsőt mutasson. Ha R-be akarjuk betölteni, én a következő módszert használtam:

data <- read.table("plink.mendel", skip = 1)

Alapértelmezett módon az R szépen be tudja olvasni a fájlt, de a fejléccel gondjai lesznek, mert az oszlopnevek is tartalmazhatnak szóközt. Ha nem olvassuk be, és utólag készítjük el, az sokkal eredményesebb.

Megpróbálok összeszedni itt egy korántsem teljes leírást, hogyan juthatunk el egy közönséges VCF fájlból valami elemzés felé.

plink2 --vcf input.vcf --fam work.fam --out work
plink --vcf input.vcf --out work

Honnan jön a work.fam fájlunk? Nekünk kell elkészíteni. A felépítése itt található. Ügyeljünk rá, hogy a minták sorrendje ugyan az legyen, mint a VCF-ben, mert különben nem fog működni, és azt a hibaüzenetet adja, hogy "Error: Mismatched IDs between --vcf file and work.fam." A vicces az, hogy fam fájl nélkül is működik, akkor készít egy psam fájlt. Ez egy kezdetleges fam fájlnak tűnik, amit kézzel szerkeszthetünk, bővíthetünk.

A másik fontos dolog, hogy ha vissza akarjuk keresni, hogy VCF-ünk melyik rekordja szerepel a plink fájlokban, akkor célszerű az ID mezőt kitölteni. Különben csak pontokat fogunk látni.

plink --bfile work --freq --out freq

Ekkor a minior allélok frekcenciáit írhatjuk ki pozíciónkként.

plink --bfile work --mendel --out problem

A paranccsal azokat az eseteket listázhatjuk ki, ami ellentmond a mendeli öröklésnek. Önmagában nem sok segítség, de ha észben tartjuk, hogy a de-novo mutációk aránya a szakirodalom szerint 10e-8 nukleotidonként, akkor ellenőrizhetjük, mennyire jó a variant call (vagy a szülők tényleg szülők-e).

plink --bfile work --check-sex

A fenti paranccsal ellenőrizhetjük, hogy a fam fájlban a mintáknak beállított nem megfelel-e a valóságnak. Akár elírás, akár minta csere történt, érdemes ellenőrizni.

Adataink ellenőrzése után jöhet a tényleges elemzés. Például asszociáció keresés betegség és genetikai variáció között:

plink --bfile work --tdt

Ekkor a családfát is figyelembe veszi a program. Ha ezt nem kívánjuk használni, akkor a

plink --bfile work --assoc

parancsot is használhatjuk. Mindkét esetben további módosítókat használhatunk a parancssorban.

Természetesen további lehetőségek is vannak, de ha idáig eljutottunk, akkor már képesek vagyunk megérteni a dokumentáció felépítését és nagyobb eséllyel találjuk meg azt, amire szükségünk van.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr4614671315

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása