Az adatelemzés mellett most több programot is meg kell írnom, amihez nem árt, ha folyamatos kontroll alatt áll a kód, hogy minden egyes módosítás után tudjam, nem szúrtam.
Gondoltam, nincs is jobb, mint valódi adatokkal megetetni a programot és a fejlesztés alatt folyamatosan monitorozni a visszaadott válaszokat. Pár órát rászántam a keresésre, de a végére valahogy egyik megtalált adat sem nyerte el a tetszésemet. Az egyik túl nagy volt, amin sokáig futna a program. A másik nem tartalmazott elég biztos eredményekt.
Kissé elkeseredtem. Egyre több adatot töltünk fel a különböző szekvencia tárhelyekre, de mégis ott tartanánk, hogy nincs megfelelő adat? Vagy egyszerűen csak lustává váltam, és túl nagyok lettek az elvárásaim? A nagy filozofálásnak az lett a vége, hogy eldöntöttem, nincs is szükségem valódi adatokra! Egy számítógéppel bármit le tudok generálni. Egy számítógép képes világokat teremteni. Olyanokat is, amelyek nem létezhetnek. Kell egy világ, ahol hibamentes Illumina readek léteznek? Egy kis gépelés, és már kész is.
Sőt, több, párhuzamos világot is teremthetek, ahol egy bizonyos paraméter egy sorozatot alkot. Tehát az előbbi példánál maradva a readek hibaszázalékát változtatva több adatot is készíthetek.
Ezen fellelkesülve nekiláttam egy VCF generáló programot írni. Azért, hogy pontosan tudjam, mit is generálok, és hova, a VCF fájlt saját tag-ekkel láttam el. Ezekkel tudtam ellenőrizni, hogy a másik program megtalálja-e azokat a jellemzőket, amelyeket a generáló program elhelyezett a fájlban.
A saját szimulátor jó móka, de nem szabad elfelejteni, hogy csak annyira tökéletes, amennyire mi ismerjük a jelenséget. A hiányos ismeretek visszaüthetnek, ha az elemző programot úgy írom meg, hogy csak generált adatokon tesztelem. Nem véletlen, hogy a különböző folyóiratok is a generált adatok mellett valódiakon is bemutatják az algoritmusokat.