HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Egy BRCA1 adatbázis

2012.02.12. 15:49 Travis.CG

Az egyik legtöbbet kutatott rákos elváltozás, a mellrák. Két génhez köthető a legtöbb rizikófaktor, a BRCA1 és BRCA2-höz. Az itt előforduló polimorfizmusok tehát rendkívül fontosak a kutatóknak és diagnosztáknak. Nem csoda, ha ezeket a változásokat adatbázisokba gyűjtik. Az egyik ilyen adatbázis a BIC. Mivel személyi adatokat is tartalmaz, jelszóval védett az oldal.

A teljes adatbázis letölthető tabulátorokkal határolt szövegként, amit aztán lehet vizsgálni. Feltéve persze, ha kitaláljuk, hogyan épül fel az adatbázis.

Az adatokból ugyanis tisztán látszik, hogy a tervezést az újabb tudományos eredmények elavulttá tették. Ahelyett, hogy újratervezték volna az adatbázist, inkább az új adatokat paszírozták a meglévő rendszerbe, furcsa titkosítás-szerű logikával. Azért, hogy másoknak ne kelljen a dekódolással szenvedni, leírom, hogy hogyan értelmezhetőek az adatok.

A legfontosabb adat, az adott variáció pozíciója. Ez a cDNS-en található nukleotid pozíciója. Megadják azt is, melyik exonban kell keresni. Időközben intron adatokat is elkezdtek feltölteni. Ha tehát exonnak I-3 van megadva, akkor az nem exon, hanem intron adat. A pozíció is módosul. 667+3 alakra, ami azt jelenti, hogy a második exon végétől még 3 nukleotid távolságra van a variáció. De néha a következő exon elejétől számolják a pozíciót, akkor értelemszerűen 1445-12 alakot fogunk felfedezni.

A mutáció jellege deléció, inszerció és SNP lehet. A deléciót a del kulcsszó jelzi. Előtte és után lehet szóköz, de akár el is maradhat. Ha rövid a szekvencia, akkor kiírják. pl: del AATGG, de ha túl hosszú, akkor csak a méretét írják ki. del 18. Hasonló a helyzet az inszerció esetén is (ins kulcsszó). A probléma akkor van, ha egy hosszabb szakasz egy rövidebbre cserélődik. Ilyen esetben láthatunk ilyen bejegyzést is: del 23 ins ATG. Az SNP-k jóval egységesebbek: nukleotid to nukleotid. Tehát A to G vagy C to T. Feltételezem, senki nem ellenőrizte az adatokat, miután felvitték, mert ilyen formát is láttam: A to G del G.

Vannak etnikai és nemzetség tárolására szolgáló mezők is. Valahol meg tudják mondani egyértelműen: pl Italian. néha viszont bizonytalanok: German? Egységes formát itt sem találunk. Az amerikaiakat például négyféle módon láttam leírva: usa, U.S.A, African American, United.

Az adatbázist jó ideje nem frissítették, de remek figyelmeztetés arra, hogy bárhol érhetnek minket meglepetések.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr74097005

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása