HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Első benyomások

2015.09.27. 14:29 Travis.CG

Kint vagyok. Majd írok az élet kezdési nehézségekről, de most először lássuk, hogyan is zajlik az élet a kampuszon.

Először is minden hatalmas. Az irodák akkorák, hogy kényelmesen elfér benne gép, ember. Maga a Sanger akkora, hogy külön szín kódolás van a padlón, hogy az ember tudja melyik fordulóban jár. Ugyanis három Z alakú folyosól áll, ezért amikor az épület egyik végéből átmegyek a másikba, mást sem csinálok, mint balra, majd jobbra fordulok. Balra, jobbra, hosszú egyenes. Balra, jobbra hosszú egyenes. A kampuszon már sikerült eltévednem.

A feldolgozni való adat is rettenetesen sok. Százas mennyiségben szekvenálják a humán genomokat. Ha valakinek csak pár mintája van, azzal nem is foglalkozik bioinformatikus. Bár pár mintája senkinek sincs. Saját szekvenáló apparátus van, saját fejlesztésű feldolgozó programokkal. Valahogy senki nem akar tudomást venni a BaseSpace-ről. Több bioinformatikai csoport is van, engem a rákkutatók közé helyeztek, amíg megértem a rendszer működését. A csoport egyrészt támogató segítséget nyújt a kutatóknak, másrészt fejleszti a feldolgozó programokat. A támogató segítség úgy néz ki, hogy van egy helpdesk-es. Ez minden héten a csoport egy másik tagja, hogy a saját kutatástól ne vegye el az időt. Milyen jellegű segítséget nyújtanak? Hogyan kell futtatni a szkripteket, milyen paraméterei vannak az illesztő programoknak, miért nem fut a kutató saját fejlesztésű szkriptje. Semmi Blast futtatás, semmi Excel generálás. A legtöbb kutató képes használni a Unixot, maga futtatja a programokat, sőt elég sokan szkripteket is írnak. Ha mégis megakadnak, ott a bioinfo helpdesk. Ha frissen érkezett jövevény nem boldogul a Linuxal, akkor az IT részleg rendszeresen tart kurzusokat, ahol megtanítják az alapokra.

A számítógépekkel sem kell bíbelődni. Van egy teljes IT gárda, akik telepítenek, rendben tartják a farmot, végzik a webfejlesztést. A kéréseket ticket rendszeren keresztül kapják. Úgy kell elképzelni, mint a sorszám húzást a Postán, csak az egész elektronikusan megy. Én beküldöm a problémámat, majd a számtalan rendszergazdi közül egy magához rendeli, megoldja és visszajelez nekem. Mindennek van nyoma. Így jól látszik, amikor három napig senki nem foglalkozik vele :-) Azért az ügyintézés elég lassú, de legalább nem kaotikus. Vagy ha kaotikus is, abból felhasználóként nem látok semmit. Erre is jó a ticket rendszer.

Rengeteg megbeszélés, szeminárium, kajával egybekötött beszélgetés, munkaebéd, stb van. Mindig lehet tudni, ki mivel foglalkozik, mégha olyan messzi csoportokról is van szó, akik nincsenek egy épületben. Nekem már kicsit sok is ennyi megbeszélés.

Van a csoportnak saját Confluence rendszere, de más csoportok üzemeltetnek Wiki oldalakat is, Természetesen már vannak közöttük elavultak, de az információ tekintélyes része megvan. Hogyan kell használni az egyes tecnológiákat, kitől kérjünk segítséget, milyen programokat használjunk.

Természetesen van intranet is és számtalan levelező lista. Nem bombáznak mindenkit paradicsomlé vásárlással, mint egyes hazai kutatóintézetekben. Elég komolyan veszik a spammelést, mert nem akarják, hogy az intézet tiltó listán legyen. Figyelik a netforgalmat is.

A felszerelés egyébként hihetetlen. Csak a csoportnak van 5000 CPU-s farmja, amivel csak mi garázdálkodunk. Ezen kívül még 30 ezer CPU-t lehet használni, de mivel sok kutató van rá, ezért nem ritka a hosszú várakozás. A tárhely valami petabyte tartományban van, de mindegy is, mert úgysem elég. Annyira nem elég, hogy illesztett BAM fájlokat nem is tárolnak. Feldolgozás után azonnal törlik. Fastq fájlokat is ritkán látni. BAM-ban tárolják a szekvenciákat, mert ez kisebb helyet foglal. Sőt, BAM helyett is újabban CRAM-t használnak, hogy még több helyet spóroljanak.

A rendszer LSF ütemezőt használ. Legalább van még egy ütemező, amit megtanulhatok. Milyen érzés ekkora teljesítménnyel dolgozni?

Többféle tárhely van. A farm gépei Lustre-t használnak. A lényege, hogy nem kell foglalkoznia a felhasználónak, hogy fizikailag hol vannak a fájlok. Úgy lehetne elképzelni, mint egy hálózaton létrehozott RAID-et. Támogatja a fájlok több fizikai hordozón való elhelyezését, ami akkor hasznos, ha több program is olvassa azokat párhuzamosan. Ezen kívül van még NFS, szalag és még számtalan egyéb adattároló.

Ezt látva kezd kicsit átértékelődni bennem a bioinformatikus, mint fogalom. Bioinformatikus az, aki inkább a számítógépes infrastruktúrával foglalkozik, mint a biológiai adatok feldolgozásával vagy elemzésével. De meg kell hagyni, ez csak egy csoport. Mások talán máshogy állnak a munkához.

Szólj hozzá!

Címkék: bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr647776728

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása