Már eddig is voltak eszközök, hogy a megtalált SNP-khez, indelekhez biológiai hatást rendeljenek, de ezek legtöbbje kimerült a szinoním, nem-szinoním mutációk elkülönítésében. Más eszközök, mint amilyen az Annovar is, csak a modell organizmusokra koncentrálnak és tetemes energia befektetésre van szükség, ha más élőlényt is vizsgálni akarunk.
Variációk nem csak kódoló szakaszokban lehetnek. Ezek fontosságát egyre több publikáció hangoztatja, mégsem találni eszközöket, hogy egyszerűen kiterjesszük a vizsgálatainkat rájuk. A hiba nem az annotációs adatbázisok hiánya. Megszámlálhatatlanul sok van, és a nagyobb genom adatbázisok mindent elkövetnek, hogy még több adatot gyűjtsenek be.
Ennek most vége! Itt a szomszédban (EBI) készítettek egy olyan eszközt, ami a teljes EnsEMBL tudásbázisára építve képes annotálni szinte bármit. Mindezt egy egyszerű, de rugalmasan konfigurálható eszközzel. Ingyen. Visz'lát Annovar, helló VEP.
Aki idegenkedik a parancssortól, az használhatja a weboldalt. Aki saját szolgáltatásba építené, használhatja a REST API-t. De az igazi ínyenceknek van parancssoros program is, Perl nyelven írva.. A poszt további részében erre koncentrálok.
Az egyetlen komoly döntés, amit meg kell hozni, hogy a program netet használjon vagy tárhelyet? Ha netet használ, akkor egyfajta felhő szolgáltatásként működit, ha a gépünk tárhelyét, akkor lassú netkapcsolat esetén is gyorsan lesz eredmény.
A telepítés egyszerű, leszedi a szükséges Perl modulokat és még azt a szívességet is megteszi, hogy nem akarja rendszer könyvtárba elhelyezni őket:
perl INSTALL.pl
Ez az esetek többségében teszi a dolgát, de érdemes figyelmet fordítani a -c kapcsolóra. Alapesetben ugyanis a felhasználó könyvtárába helyezi az egyes organizmusokhoz tartozó adatokat, ami komoly gond olyan nagygépes környezetben, ahol ez limitált. Viszonylag sok élőlényekhez már van előre elkészített adatbázis is. Ebben az esetben csak egyszer használjuk a sávszélességet, letöltésnél.
Használata rendkívül egyszerű. A --cache opció nélkül a szkript haza telefonál.
perl variant_effect_predictor.pl --vcf -i input.vcf --cache -o output.vcf
Az eredmény a VCF fájl INFO oszlopában lesz CSQ taggal jelölve. Ha az adott variáció több gént is érint, a gének vesszővel lesznek elválasztva. Apró figyelmesség, hogy más annotáló programoktól eltérően, nem a szinoním/nem-szinoním szavakat, használja az aminosav cserével járó variációk jelölésére, hanem a missense/synonimous-t. Bárki, aki próbálta már grep-el szétválasztani a kategóriákat, csak örülni tud ennek.