Korábbi posztomban nagyon kifakadtam a leendő bioinformatikus kollégákra. El is határoztam, hogy írok alapozó posztokat. Ez az első. Jöjjön az EMBOSS gyorstalpaló.
Az Emboss a bioinformatikai svájci bicska. Minden alapvető műveletre megtalálható benne egy vagy több program. Ebben a leírásban elsősorban a szekvencia műveletekre fogok koncentrálni.
Az Emboss parancssoros programokból áll. Két alapvető módon használható. Mindent parancssori kapcsolók segítségével állítunk be, vagy interaktív módon használjuk. Az interaktív módnál a legfontosabb paraméterekre rákérdez a program. Ha kifelejtünk egy kötelező parancssori kapcsolót, a program azonnal rákérdez. Amennyiben megelégszünk az alapértelmezett beállításokkal, -auto kapcsolót használhatjuk.
Az Emboss egyik nagy előnye, ami miatt mindenki szereti, hogy meghatározza, milyen fájlformátumban kapja a bemenetet. Explicit is megadhatjuk neki a formátumot, de az esetek többségében nincs rá szükség, képes kitalálni, mit kapott.
Segítség
Az Emboss rengeteg programot tartalmaz. Ember nincs a világon, aki az összeset ismerné. A wossname segítségével téma szerint kereshetünk programot. Ha nem adunk meg kulcsszót, akkor megkapjuk az összes elérhető program nevét. Ha megtaláltuk a nekünk megfelelő programot, a tfm parancs segítségével részletes leírást kapunk.
Szekvencia feldolgozás
Alapvető igény, hogy általános információkat kapjunk a vizsgálni kívánt szekvenciáról. Például tudni akarjuk a hosszát, mennyi rekordot tartalmaz, stb. Az infoseq programot erre találták ki.
infoseq NC_010473.fna
Display basic information about sequences
USA Database Name Accession Type Length %GC Organism Description
fasta::NC_010473.fna:NC_010473.1 - NC_010473.1 NC_010473 N 4686137 50.78 Escherichia coli str. K-12 substr. DH10B chromosome, complete genome
Rengeteg információt ad, egy részük redundáns. A -only kapcsolóval szűkíthetjük a kiírandó oszlopok számát.
infoseq NC_010473.fna -only -usa -length
Display basic information about sequences
USA Length
fasta::NC_010473.fna:NC_010473.1 4686137
Máris sokkal szebb.
Említettem, hogy több fájlformátum van. Előfordulhat, hogy ezeket kénytelenek vagyunk konvertálni, kivágni bizonyos részeit. A seqret a mi barátunk. A bemenetet és a kimenetet kell megadnunk neki.seqret NC_010473.fna raw::out
Mi az a "raw::"? Itt állítottam be a kimeneti fájl formátumát. Ugyan így megadhatjuk, hogy miként értelmezze a bemeneti fájlt is. Több rekordot tartalmazó fájl esetén megadhatjuk a rekord nevét is, :-al a fájl neve mögött. Pontosan úgy, ahogy az infoseq is kiírja.
A szekvencia kezdő és végpozícióját is megadhatjuk, -sbegin -send kapcsolókkal.
Két különböző forrásból származó szekvencia összehasonlítására a diffseq-t használhatjuk. Ez annyival jobb, mint a Unixos diff parancs, hogy a szekvenciákat hasonlítja össze, nem a fájlokat. Ez akkor lehet hasznos, ha a szekvenciák például különböző szélességű állományokban vannak.
Hasonlóan a fuzznuc-ra is gondolhatunk úgy, mint szekvenciákra kihegyezett grep parancsra. Ideális, ha egy kisebb részszekvenciát akarunk megkeresni egy nagyobban.
fuzznuc test.fa -pattern ACTG -outfile test.fuzz
A test.fa állományban megkeressük az ACTG mintázat összes előfordulását, majd az eredményeket a test.fuzz állományba mentjük. Ha a minta reverz komplementerét is meg kívánjuk keresni, akkor a -complement kapcsolót is használnunk kell.
Van két parancs, ami első látársa nem tűnik hasznosnak, pedig segítségükkel új szekvenciákat állíthatunk elő. Ezek a shuffleseq és msbar. Előbbi egy tetszőleges szekvenciát kever össze, míg utóbbi mutációkat hajt végre. Arra is lehetőség van, hogy véletlenszerű szekvenciákat hozzunk létre. Ekkor a makenucseq parancsot kell kiadni.
makenucseq -amount 1 -length 10000 -outseq ki.fa -auto
A parancs hatására egy darab 10 ezer nukleotid hosszúságú fájl keletkezik ki.fa néven.