HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Ez itt a reklám helye

2016.06.26. 22:31 Travis.CG

reklam.png

Már eddig is voltak eszközök, hogy a megtalált SNP-khez, indelekhez biológiai hatást rendeljenek, de ezek legtöbbje kimerült a szinoním, nem-szinoním mutációk elkülönítésében. Más eszközök, mint amilyen az Annovar is, csak a modell organizmusokra koncentrálnak és tetemes energia befektetésre van szükség, ha más élőlényt is vizsgálni akarunk.

Variációk nem csak kódoló szakaszokban lehetnek. Ezek fontosságát egyre több publikáció hangoztatja, mégsem találni eszközöket, hogy egyszerűen kiterjesszük a vizsgálatainkat rájuk. A hiba nem az annotációs adatbázisok hiánya. Megszámlálhatatlanul sok van, és a nagyobb genom adatbázisok mindent elkövetnek, hogy még több adatot gyűjtsenek be.

Ennek most vége! Itt a szomszédban (EBI) készítettek egy olyan eszközt, ami a teljes EnsEMBL tudásbázisára építve képes annotálni szinte bármit. Mindezt egy egyszerű, de rugalmasan konfigurálható eszközzel. Ingyen. Visz'lát Annovar, helló VEP.

Aki idegenkedik a parancssortól, az  használhatja a weboldalt. Aki saját szolgáltatásba építené, használhatja a REST API-t. De az igazi ínyenceknek van parancssoros program is, Perl nyelven írva.. A poszt további részében erre koncentrálok.

Az egyetlen komoly döntés, amit meg kell hozni, hogy a program netet használjon vagy tárhelyet? Ha netet használ, akkor egyfajta felhő szolgáltatásként működit, ha a gépünk tárhelyét, akkor lassú netkapcsolat esetén is gyorsan lesz eredmény.

A telepítés egyszerű, leszedi a szükséges Perl modulokat és még azt a szívességet is megteszi, hogy nem akarja rendszer könyvtárba elhelyezni őket:

perl INSTALL.pl

Ez az esetek többségében teszi a dolgát, de érdemes figyelmet fordítani a -c kapcsolóra. Alapesetben ugyanis a felhasználó könyvtárába helyezi az egyes organizmusokhoz tartozó adatokat, ami komoly gond olyan nagygépes környezetben, ahol ez limitált. Viszonylag sok élőlényekhez már van előre elkészített adatbázis is. Ebben az esetben csak egyszer használjuk a sávszélességet, letöltésnél.

Használata rendkívül egyszerű. A --cache opció nélkül a szkript haza telefonál.

perl variant_effect_predictor.pl --vcf -i input.vcf --cache -o output.vcf

Az eredmény a VCF fájl INFO oszlopában lesz CSQ taggal jelölve. Ha az adott variáció több gént is érint, a gének vesszővel lesznek elválasztva. Apró figyelmesség, hogy más annotáló programoktól eltérően, nem a szinoním/nem-szinoním szavakat, használja az aminosav cserével járó variációk jelölésére, hanem a missense/synonimous-t. Bárki, aki próbálta már grep-el szétválasztani a kategóriákat, csak örülni tud ennek.

3 komment

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr128821778

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Kalle 2016.06.27. 12:27:23

Meglep hogy a perl nem tud kipusztulni a bioinfós közéletből, pedig nagyon ideje lenne már.

Travis.CG 2016.07.03. 15:47:44

A program az EnsEMBL API-ra épít, ami Perl, ezért logikus választás. Az egész EnsEMBL átalakítása egy másik nyelvre szerintem irreálisan nagy munka. Gondolom nálatok is van legacy kód, amit nem piszkáltok.

Kalle 2016.08.05. 10:40:05

@Travis.CG: Jogos a felvetés, itt egy undorító c-szerű saját nyelven fejlesztenek, aminek köszönhetően nagyon gyorsan elhúzza innen a belét aki egy kicsit is tehetséges, vagy becsvágyó. Én is már a felmondási időmet töltöm :D
süti beállítások módosítása