HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Szimulálj!

2022.06.24. 23:32 Travis.CG

Az adatelemzés mellett most több programot is meg kell írnom, amihez nem árt, ha folyamatos kontroll alatt áll a kód, hogy minden egyes módosítás után tudjam, nem szúrtam.

Gondoltam, nincs is jobb, mint valódi adatokkal megetetni a programot és a fejlesztés alatt folyamatosan monitorozni a visszaadott válaszokat. Pár órát rászántam a keresésre, de a végére valahogy egyik megtalált adat sem nyerte el a tetszésemet. Az egyik túl nagy volt, amin sokáig futna a program. A másik nem tartalmazott elég biztos eredményekt.

Kissé elkeseredtem. Egyre több adatot töltünk fel a különböző szekvencia tárhelyekre, de mégis ott tartanánk, hogy nincs megfelelő adat? Vagy egyszerűen csak lustává váltam, és túl nagyok lettek az elvárásaim? A nagy filozofálásnak az lett a vége, hogy eldöntöttem, nincs is szükségem valódi adatokra! Egy számítógéppel bármit le tudok generálni. Egy számítógép képes világokat teremteni. Olyanokat is, amelyek nem létezhetnek. Kell egy világ, ahol hibamentes Illumina readek léteznek? Egy kis gépelés, és már kész is.

Sőt, több, párhuzamos világot is teremthetek, ahol egy bizonyos paraméter egy sorozatot alkot. Tehát az előbbi példánál maradva a readek hibaszázalékát változtatva több adatot is készíthetek.

Ezen fellelkesülve nekiláttam egy VCF generáló programot írni. Azért, hogy pontosan tudjam, mit is generálok, és hova, a VCF fájlt saját tag-ekkel láttam el. Ezekkel tudtam ellenőrizni, hogy a másik program megtalálja-e azokat a jellemzőket, amelyeket a generáló program elhelyezett a fájlban.

A saját szimulátor jó móka, de nem szabad elfelejteni, hogy csak annyira tökéletes, amennyire mi ismerjük a jelenséget. A hiányos ismeretek visszaüthetnek, ha az elemző programot úgy írom meg, hogy csak generált adatokon tesztelem. Nem véletlen, hogy a különböző folyóiratok is a generált adatok mellett valódiakon is bemutatják az algoritmusokat.

Szólj hozzá!

Címkék: programozás bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr7617842801

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása