HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: @Travis.CG: Nohát, nem is tudtam, hogy ilyen van... bár ahogy elnézem ezek a komponensek fizetősek... (2018.11.01. 10:14) Rossz beidegződések a bionformatikában
  • Csenge Tarnói: Ez érdekes. Most csinálok egy meta-analízist, életemben először, úgyhogy az én tudásom is felszíne... (2018.10.01. 21:39) Ez már nekem sok
  • robertherczeg: Nekem a kedvenc az volt, hogy: "Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, m... (2018.09.04. 07:47) Ezért utálom a Wilcoxon-tesztet
  • Travis.CG: ÉÉÉÉÉs megjelent! (2018.08.24. 23:31) Nehéz szülés 2
  • Szedlák Ádám: Hogy én mennyire köszönöm ezt a posztot, arra nincs szó. A kódoljon mindenki / legyen mindenki olc... (2018.06.25. 03:37) Legyen mindenki programozó

Emboss: szekvencia kezelés

2012.01.08. 20:37 Travis.CG

Korábbi posztomban nagyon kifakadtam a leendő bioinformatikus kollégákra. El is határoztam, hogy írok alapozó posztokat. Ez az első. Jöjjön az EMBOSS gyorstalpaló.

Az Emboss a bioinformatikai svájci bicska. Minden alapvető műveletre megtalálható benne egy vagy több program. Ebben a leírásban elsősorban a szekvencia műveletekre fogok koncentrálni.

Az Emboss parancssoros programokból áll. Két alapvető módon használható. Mindent parancssori kapcsolók segítségével állítunk be, vagy interaktív módon használjuk. Az interaktív módnál a legfontosabb paraméterekre rákérdez a program. Ha kifelejtünk egy kötelező parancssori kapcsolót, a program azonnal rákérdez. Amennyiben megelégszünk az alapértelmezett beállításokkal, -auto kapcsolót használhatjuk.

Az Emboss egyik nagy előnye, ami miatt mindenki szereti, hogy meghatározza, milyen fájlformátumban kapja a bemenetet. Explicit is megadhatjuk neki a formátumot, de az esetek többségében nincs rá szükség, képes kitalálni, mit kapott.

Segítség

Az Emboss rengeteg programot tartalmaz. Ember nincs a világon, aki az összeset ismerné. A wossname segítségével téma szerint kereshetünk programot. Ha nem adunk meg kulcsszót, akkor megkapjuk az összes elérhető program nevét. Ha megtaláltuk a nekünk megfelelő programot, a tfm parancs segítségével részletes leírást kapunk.

Szekvencia feldolgozás

Alapvető igény, hogy általános információkat kapjunk a vizsgálni kívánt szekvenciáról. Például tudni akarjuk a hosszát, mennyi rekordot tartalmaz, stb. Az infoseq programot erre találták ki.

infoseq NC_010473.fnaDisplay basic information about sequences
USA                      Database  Name           Accession      Type Length %GC    Organism            Description
fasta::NC_010473.fna:NC_010473.1 -              NC_010473.1    NC_010473      N    4686137 50.78                      Escherichia coli str. K-12 substr. DH10B chromosome, complete genome

Rengeteg információt ad, egy részük redundáns. A -only kapcsolóval szűkíthetjük a kiírandó oszlopok számát.

infoseq NC_010473.fna -only -usa -lengthDisplay basic information about sequences
USA                      Length
fasta::NC_010473.fna:NC_010473.1 4686137

Máris sokkal szebb.

Említettem, hogy több fájlformátum van. Előfordulhat, hogy ezeket kénytelenek vagyunk konvertálni, kivágni bizonyos részeit. A seqret a mi barátunk. A bemenetet és a kimenetet kell megadnunk neki.
seqret NC_010473.fna raw::outMi az a "raw::"? Itt állítottam be a kimeneti fájl formátumát. Ugyan így megadhatjuk, hogy miként értelmezze a bemeneti fájlt is. Több rekordot tartalmazó fájl esetén megadhatjuk a rekord nevét is, :-al a fájl neve mögött. Pontosan úgy, ahogy az infoseq is kiírja.

A szekvencia kezdő és végpozícióját is megadhatjuk, -sbegin -send kapcsolókkal.

Két különböző forrásból származó szekvencia összehasonlítására a diffseq-t használhatjuk. Ez annyival jobb, mint a Unixos diff parancs, hogy a szekvenciákat hasonlítja össze, nem a fájlokat. Ez akkor lehet hasznos, ha a szekvenciák például különböző szélességű állományokban vannak.

Hasonlóan a fuzznuc-ra is gondolhatunk úgy, mint szekvenciákra kihegyezett grep parancsra. Ideális, ha egy kisebb részszekvenciát akarunk megkeresni egy nagyobban.

fuzznuc test.fa -pattern ACTG -outfile test.fuzzA test.fa állományban megkeressük az ACTG mintázat összes előfordulását, majd az eredményeket a test.fuzz állományba mentjük. Ha a minta reverz komplementerét is meg kívánjuk keresni, akkor a -complement kapcsolót is használnunk kell.

Van két parancs, ami első látársa nem tűnik hasznosnak, pedig segítségükkel új szekvenciákat állíthatunk elő. Ezek a shuffleseq és msbar. Előbbi egy tetszőleges szekvenciát kever össze, míg utóbbi mutációkat hajt végre. Arra is lehetőség van, hogy véletlenszerű szekvenciákat hozzunk létre. Ekkor a makenucseq parancsot kell kiadni.

makenucseq -amount 1 -length 10000 -outseq ki.fa -autoA parancs hatására egy darab 10 ezer nukleotid hosszúságú fájl keletkezik ki.fa néven.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr613529725

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.