HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • Travis.CG: @razZ0r: Mindig tanul valamit az ember. (2018.03.05. 00:47) Táblázatok tárolása (és gyors betöltése)
  • Travis.CG: A videók linket is elhelyeztem. (2018.01.18. 22:24) Bioinformatika 2017
  • Travis.CG: A bejegyzés egy korrekcióval van frissítve. (2018.01.18. 22:20) Politikai döntés
  • ebarta: @Travis.CG: Azért kellene dedikált gép, mert ezekben a NIIFI-s HPC-kben nincs diszk a node-okban (... (2017.12.17. 10:37) Lassú víz
  • robertherczeg: Hello! Tanulságos történet :) (2017.10.17. 21:10) Első nap

Tanulj tinó

2018.04.20. 12:57 Travis.CG

Azt hittem matematikából már mindent tudok, amit egy biológusból képzett bioinformatikusnak tudnia kell. Tudom, hogy az eredmények statisztika nélkül is látszanak, miként szabaduljak meg attól a csúnya log-nak rövidített izétől. Ezeket az ismereteket nem lehet az iskolapadban elsajátítani, ahogy mondani szokás, "erre az élet nevel".

De ezen a héten bebizonyosodott, hogy igenis van még mit tanulnom. Ráadásul ez a tudás igen alapvető, mert a lebegőpontos számábrázolással van kapcsolatban.

Egy projekthez kellett kb. 27 táblázatot generálnom. Mikor mindennel kész voltam és elküldtem őket, azt a feladatot kaptam, hogy az összes táblázatot készítsem el újra, hogy csak két tizedes jegyet tartalmazzanak! Az indoklás az volt, hogy "a második tizedes jegy után csak zaj van".

Mit lehet tenni? Senki nem akarja zajjal feltölteni a táblázatát, nem igaz?

Mikor végeztem és a szignifikáns sorokban a p érték mind 0 lett, akkor teljesen biztos voltam benne, hogy jól dolgoztam és semmi zaj nem maradt.

 

Szólj hozzá!

Címkék: életmód

Alázat

2018.04.09. 00:46 Travis.CG

Sokan bírálják a tudományos életet, hogy mennyire hatalmi elvű, mert minden a csoport vezetőknek van alárendelve. (A csoport vezetők meg a különböző bizottságoknak, akik a pénzt osztják a kutatásra.) De ennek van egy kevésbé értékelt pozitív hozadéka is, az alázat.

Alázat alatt nem a minden ok nélküli behódolást értem, hanem annak a megértését, hogy mi az, amit nem tudunk. Elfogadni, hogy nem tudunk mindent és vannak hiányosságaink, hiába van PhD-nk, Science cikkünk, továbbra is rá vagyunk utalva, hogy mások munkáit elolvassuk, elsajátítsuk az ő felfedezéseiket is.

Erről az apró tényről még a legnagyobb kutatók is hajlamosak megfeledkezni és a TV-ben olyan témákról is vígan nyilatkoznak, ami kívül esik a kutatási területükön, ergo könnyen lehet, hogy annyit sem tudnak róla, mint egy járókelő.

Mostani történetünk hősei is ilyenek. Ez nem velem esett meg, de akár velem is előfordulhatott volna, és ahogy a nagy bölcsek mondják: az okos mások hibáiból tanul.

A történet a következő: X szeretett volna egy jó zsíros cikket írni, amit mindenki idéz. Labormunkát viszont nem nagyon akart végezni. Rövid töprengés után arra jutott, hogy áttekintő cikket kellene írni, hiszen azt mindenki idézi és milyen magas impakt faktorú lapokban jelennek meg! Kiválasztott egy témát és kiadta a feladatot Y-nak. X-nek már csak annyi dolga volt, hogy hetente rákérdezzen: Készen van?

Így teltek a hónapok, míg el nem készült a nagy mű. Rögtön be is adták egy patinás lapba. A főszerkesztő nagyjából két óra múlva dobta vissza. Indoklás: Maguk az adott témából eddig 0 cikket publikáltak. Más szavakkal: honnan veszitek, hogy ehhez ti értetek?

Ez az az alázat, amire gondolok. Már az egyetemi disszertáció készítésénél is elvárjuk, hogy a hallgatók az irodalmi összeollózáson kívül mást is csináljanak. De hőseink még ebből sem tanultak. Nem értették, hogy miként lehetséges az, hogy ezt a komoly cikket visszadobták. Dühösen mesélték mindenkinek, hogy velük hogy elbánt ez a cudar főszerkesztő, pedig a Google Scholar oldalán olyan publikációk vannak, amelyeket nem is ő írt. Biztos rejteget valamit!

Azt már csak én gondolom tovább, hogy ha egy ilyen konspiráló alak dobja vissza a cikket, akkor az érvei nem is jelentenek semmit, hiszen csak egy áskálódó alak. Nyilván ezzel a viselkedéssel harcolta ki, hogy annak a híres lapnak a főszerkesztője legyen és vakond hajlamait ott éli ki igazán. Hányattatott sorsú, meg nem értett zsenik korszakalkotó munkáit dobja vissza nevetséges indokokkal, és ezzel az egész civilizáció fejlődésének a gátja.

Szerencsére a hungariensis végzősdésű lapok mentesek ezektől a kis stílű, Napóleon-szindrómás alakoktól.

Szólj hozzá!

Címkék: publikáció

Cseppet sem objektíven: Demobit 2018

2018.03.27. 14:46 Travis.CG

A Demobit egy csendes kelet Európai party, de közelsége Magyarországhoz ideális scene turizmushoz. Ez meg is látszik, ahogy évről évre egyre több magyar induló van, ezért most erről fogok írni.

Zene

A zenék nem is voltak olyan rosszak, mint amire számítottam. A compót nagz nyerte, mégpedig egy nem is akármilyen zenével:

Grafika/Fotó

A szerény évkezdésnek megfelelően szerény felhozatal, ami nem az indulók mennyiségét, inkább a minőségét jellemzi. Még Dorcyy képéből is hiányzott az élet. A fotók egy cseppet jobbak voltak, itt-ott akadt egy hivatásos induló, de így is akadt elég jellegtelen kép.

Wild/animáció

Őszintén szólva nem tudom, mi indokolta ezt a két kategóriát, mert akadtak átfedő alkotások, például a tortás videó, de a Gabber for horses is belefért volna a demó kategóriába. Az animációk viszont jók voltak. Még a bújtatott reklám drón videó is kreatív volt. De a legjobb szerintem a Je suis toi volt. Nem volt túl elvont, mégis elég érzelem volt benne.

Intrók

Az oldschool intrók kimerültek a scrollerek variálásában. Azt hiszem ennyi elég is róluk. A PC intrók sem vitték túlzásba, a Nitro Intra kellemes, egyszerű intró volt, korrekt zenével, de egy komolyabb partin valószínűleg észre sem vennénk.

A 256 byte intrók összességében jobbak voltak. Kiemelném a Storming over the Tatras-t. Nem azért, mert technikailag olyan kiemelkedő, hanem azért, hogy megmutassam, egy jó címmel még a zajt is el lehet adni. Nem tudok szabadulni a gondolattól, hogy egy bugot "javítottak" a név választással. Hasonló érzésem van a Minsky objektum orientált technológiai bemutatóval kapcsolatban is.

Demók

Az Alföld és a Hortobágy gyanús hasonlósága valami olyan poént sejtet, amit a kívülállók nem érthetnek. Megkaptuk végre a QBParty invitációját is Feryxtől. Ott volt az ASD is, de csak Kinecttel felvettek egy csomó modellt és vertex shaderben raktak rá egy kis Perlin-noise-t :-) A zene viszont nagyon jó volt hozzá. A Fresh!Mindworkz két demóval is jelentkezett. Az egyik végre szakított a részecske rendszerek egyeduralmának, ami üdítő változás (érdekes módon ezt adták ki álnév alatt), és volt egy koprodukció Gargajjal, ami nekem nagyon bejött. Az a tipikus egyszerű, de nagyszerű demó, ami nem rázza meg a kontinenseket, de kellemes nézni.

Végül ott volt a Monoamine, ami szerintem megérdemelten nyert.

Akit érdekel egy kis háttér a partyról, az mindenképp olvassa el a Scene.hu cikket is. A komment szekció is igen tanúságos.

Szólj hozzá!

Címkék: demoscene

MTA gőzpamacs

2018.03.18. 00:14 Travis.CG

Azt hiszitek, hogy a magyar szuperszámítógépek helyzeténél nincs rosszabb? Akkor még semmit nem tudtok az MTA Cloud gőzpamacs helyzetéről.

Miközben a NIIF-el hadakoztam, hogy hozzáférést szerezzek, vészmegoldásként regisztráltam az MTA párafelhőjébe. Már a kiírásból láttam, hogy ez édes kevés lesz, de még mindig jobb alternatívának tűnt, mint az asztalomon álló gép. Illetve még ez sem teljesen igaz, mert a munkahelyi gépemben 32GB memória van, amit az MTA felajánl, abban legfeljebb 16.

Ha viszont több ilyen gépet használhatok egyszerre, az kárpótolhatja ezeket a hiányosságokat. Regisztráció előtt át is néztem az elfogadott pályázatokat, és találtam pár embert az intézet más csoportjai között, akik aktívan használják az MTA ködöt. Felkerestem egyiküket, aki elég lesúlytó véleménnyel volt a kezdeményezésről, mert ő arra számított, hogy csak belép és minden bioinformatikai program feltelepítve ott várja, klikkel egyet és PDF-ben kijön a cikk.

Mint azt az ismertető is tanúsítja, ők nem adnak szolgáltatást, hanem infrastruktúrát. Szegény bioinformatikusunk csupán egyetlen távoli gépet használt, ami teljesítményben nem volt jobb annál, amiről használta azt. El is hiszem, hogy csalódott volt.

Engem viszont lelkesített a dolog, ezért el is küldtem a projekt igénylést. Bár az ismertető szerint egy héten belül válaszolnak, ez az én esetemben két hét lett. Közölték, hogy a gőzfürdő betelt. Igen kérem, nincs szabad kapacitásuk.

Ajánlom mindenki figyelmébe a demagóg prezentációkat. Itt például a 8. dián a erőforrás lefoglalása 10-20 perc. Hát persze, akkor nekem mi tart fél évig? De a főoldalon is olyan hülyeségek olvashatóak, hogy a desktop géptől a szuperszámítógép fürtökig bármit létrehozhatunk. Én csak 5 nyavajás gépet igényeltem, mert sejtettem, hogy ez nem az Amazon. Hol van ez egy szuperszámítógép fürttől? De a másik mondatuknak sincs semmi értelme: "Az adatok biztonságos tárolását a legkorszerűbb OpenStack felhő alkalmazása biztosítja". Aki ezt írta, az nincs tisztába azzal, mi is az OpenStack. A pályaudvarokon sem a konténer emelő daru biztosítja a rakomány tárolását.

Azt írták, januárban gépbővítés lesz és akkor kapok hozzáférést. Márciusban azért megjegyeztem nekik, hogy nem lehetett túl sikeres a bővítés, mert még mindig nem kaptam semmit. Ismét egy hetet kellett várni, hogy válaszoljanak. A bővítés sikeres volt, délután megkapom az instrukciókat, hogyan léphetek be. Sajnos a levél azt nem mondta, melyik délután.

Ezek a levélváltások egy Jane Austen regényben még elmennek, de informatikával foglalkozó emberektől nem elfogadható.

Szólj hozzá!

Címkék: cloud computing

Majdnem mindent az RNA-seq-ről (9. rész)

2018.03.11. 00:28 Travis.CG

A bioinformatikában vannak dolgok, amiket érdemes megcsinálni, mert jó eredményt adnak. Vannak dolgok, amiket érdemes megcsinálni, még akkor is, ha tudjuk, hogy az eredmény nem feltétlenül tükrözi a valóságot. Végezetül vannak dolgok, amiket meg lehet csinálni, de teljesen feleslegesek. Ma ez utóbbiról fogok írni.

Ez pedig nem más, mint a nukleotid variációk detektálása RNA-seq adatokból. Az, hogy kár erre az időt vesztegetni, csupán a személyes véleményem, a szakirodalom elég sokat foglalkozik vele és a Sangerben is volt egy kolléga, aki elmélyült a témában, vele beszélgettem.

Először is, miért gondolom, hogy értelmetlen? A kapott eredményeket nagyban befolyásolják a poszt transzkripciós nukleotid modifikációk. Ha látunk egy SNP-t az RNA-seq adatokban, az nem feltétlenül jelent genomi változást, elképzelhető, hogy a szekvenáló gép rosszul értelmezett egy módosított bázist. Továbbá ha az egyik allél tartalmaz egy olyan mutációt, ami megakadályozza a transzkript átírását (például korai stop kodont tartalmaz), arról nem kapunk információt a szekvenálás során, egyszerűen, mert nem képződik az allélról semmi. Egyik esetben sem ússzuk meg a DNS szekvenálást. Ha pedig mindenképp kell még egy szekvenálás, akkor mi értelme a vizsgálatnak?

Egyedül akkor van értelme, ha igazolni akarjuk, hogy egy SNP tényleg átíródik vagy sem. De ha a módosult fehérjére vagyunk kíváncsiak, akkor meg tömeg spektrometriát kell végezni.

Akik mégis végre akarják hajtani a vizsgálatot, érdemes követni a GATK ajánlását. A folyamat nagymértékben hasonlít a DNS feldolgozás lépéseire, ezért ismerős lehet annak, aki már csinálta (vagy olvasta ezt a bejegyzést).

Milyen eredményre számíthatunk? Semmi jóra. A fent említett kollégám a Sanger összes elérhető mellrák mintájára lefuttatta a GATK pipeline-t, majd az eredményeket összehasonlította az exom szekvenálásból kapott variációkkal. A fals pozitívok száma óriási volt. Úgy tudta valamelyest visszaszorítani a hibás találatok számát, hogy készített egy úgynevezett normál panelt. Ez azt jelenti, hogy fogott 120 normál mintát, azokon is lefuttatta a GATK-t, és amit abban talált, azt egy táblázatba rendezte, mint ismert hibát. Ezt használta szűrésre a rákos mintáknál. Az eredmények jobbak voltak, de még mindig nem érték el azt a szintet, amit egy SNP detektálótól elvárna az ember.

Ezt egy munkabeszámolón adta elő, ahol a normál panel méretének növelését célozta meg. Nem tudom, hogy utána mennyit foglalkozott a dologgal, de egy átlagos kísérletnél nincs lehetőség ekkora erőforrásokat mozgósítani, pláne, ha van egyszerűbb módja is a variációk azonosításának.

Szólj hozzá!

Címkék: bioinformatika

Cseppet sem objektíven: Assembly 2017

2018.03.05. 00:25 Travis.CG

Az idei Assembly már elég régen történt, de csak mostanra sikerült mindent megnéznem. Mivel a demók az örökkévalóságnak szólnak, nem az adott pillanatnak, szerintem nyugodtan áttekinthetjük őket.

Zene

A demópartik közül az Assembly zenei kínálata szokott a leginkább tetszeni és ez idén sincs másképp. Ismét igen széles stílus kínálattal találkozhattunk. Dance kategóriában a Sunlight és a Latin space érte el, hogy bekerüljön a zenei gyűjteményembe. Fast kategóriában az agresszív nevű Super Dragon Power Turbo volt a legemlékezetesebb. El sem tudom képzelni, milyen adrenalin fokozó szót lehetne még belepréselni a címébe. A mellékvesém le is merült teljesen, a Listening music kategóriából semmi nem maradt meg bennem.

Intrók

Az 1k intrók nem voltak a legerőssebbek. A Shoot the core határozottan a Final Stage Boss utánérzése volt 1k kiadásban. Az akció elég lapos volt, különösen, hogy a gépemen 20 FPS-el ment. Olyan volt, mint egy akciófilm öreg emberekkel. A JavaScript kölykök viszont kitettek magukért. A Bloody Brilliant, mint neve is mutatja, brilliáns. A Voltra is tetszett, de csak azért mert 1k!  Ebben a mérettartományban JS-el ilyet készíteni igazi kihívás. A 64k nagy nevei itt nem képviseltették magukat, csupán a Mercury kemény magja bújt kamu csapatnév mögé. Mellesleg az ő produkciójuk volt a legkiemelkedőbb.

Wild

A videók egy kicsit csalódást keltettek. Nem voltak fraktálok, hiányoztak a drón felvételek. Egyedül az Antivirus 2017 csalt némi mosolyt az arcomra, de a sztori itt is kicsit inkoherens volt. A mini számítógépben volt egy kicsi billentyűzet, amit csak összezsugorított emberek nyomkodhattak? Lehet, csak én voltam túl földhöz ragadt. Természetesen nem maradhattak el a barkácsolt demo platformok sem. A kórházi kijelző demóplatformmá történő alakítása a hazai egészségügy helyzetét nem javítaná, de biztosan kellemesebb időtöltést nyújtana, még a digitális kultúra ellenzőinek is. A Legoból készített szintetizátoron játszó gépszörny impozáns volt, de őszintén szólva, nem értettem a lenyomott gomboknak milyen hatása van a produkcióra. A videóból ugyanis úgy tűnt, semmilyen. A csúcs természetesen a motorizált keverőpult volt, amit a zene vezérelt.

Demók

Végezetül jöjjöj a király kategória! A felhozatallal nem volt semmi probléma. Sokan kritizálják a Pyrotech demókat, és való igaz, rájuk jár a rúd. A csapat vezetője szokott panaszkodni, hogy már nem olyan könnyű összerántani a bandát, az alkalmazott kódbázis évek óta nem frissül, de azért igyekeznek kihozni a legjobbat abból, amijük van. A Sokia számomra olyan felemás volt. Egyrészt technikailag talán a legjobb demó volt, de mindebből alig látszik valami, mert a grafikai elemek egymásra vannak hányva, a rezgő, vibráló effektek meg lehetetlenné teszik, hogy látni lehessen, mi is zajlik a képernyőn. Fórumon, akik mindezt szóvá tették, azt a választ kapták, hogy nem tisztelik az alkotót és annak alkotását, miközben a demoscene tele van pocsék releasekkel. Nekem ez kicsit olyan, amintha egy filmrendező kifogásolná, hogy nem kapta meg az Oscart, mert milyen remek operatőri munka és színészi játék van a filmjében, miközben megfeledkezik róla, hogy a film címe: Bányászok harca éjfélkor az alagútban. Persze, ha nem lenne dráma, én sem tudnék miről írni. Akár hogy is, a Zoomin nem véletlenül nyert. A party látogatóinak bizonyára jobban feküdt egy olyan látványvilág, amit azonnal be tudtak fogadni. Ha mindenképp kellene egy nyertest választani, akkor talán a Geometry Gods lenne az. Rengeteg jó ötlet van benne és egyáltalán nem mentes a hibáktól, de többnek érzem, mint egy vegytiszta technológiai demonstrációt.

Szólj hozzá!

Címkék: demoscene

Táblázatok tárolása (és gyors betöltése)

2018.03.02. 13:13 Travis.CG

Arról, miként nézzen ki egy táblázat, már írtam korábban, hogy miként tároljuk azokat, még nem esett szó. Erre több módszer is létezik, ezekből szemezgetnék párat a teljesség igénye nélkül. A következő teszteket a GTEx RNA-seq táblázatával próbáltam ki, ami 1.7GB méretű. Ezt bárki letöltheti és további próbákat tehet vele. Az oszlopok az EnsEMBL gén azonosítók, az oszlopok pedig a megszekvenált minták.

Szöveges állományok

Természetesen a legegyszerűbb megoldás, ha csak úgy hagyjuk őket, ahogy vannak. A legnépszerűbb megoldások a tabulátorral vagy pontosvesszővel elválasztott szövegek (a GTEx az előbbi). Ezeket R-ben például nagyon egyszerű betölteni.

d1 <- read.table("count.tsv", check.names = F, sep = "\t")

Ha viszont megnézzük, milyen sebességgel kerül a memóriába ez a fájl, már nem olyan vidám a helyzet. A tesztelésre használt gépen ez 217.721 másodpercet vett igénybe. A readr csomag sokat lendíthet az olvasási sebességen.

d2 <- read_table2("count.tsv")

Ez kevesebb, mint fele idő alatt dolgozza fel a táblázatot (90.63 mp). De mi a helyzet, ha a rendelkezésre álló memória nem teszi lehetővé, hogy mindent beolvassunk? Szerencsére erre is van megoldás. A bigmemory csomag segítségével nem csak beolvashatjuk a táblázatunkat, de olyan elemzéseket is végezhetünk, amelyek korábban lehetetlenek lettek volna a kevés memória miatt.

d3 <- read.big.matrix("count.tsv", header = T)

Ez igazi sebesség, 36.569 másodperc! De sajnos van egy nagy hátránya a tisztán szöveges adatnak. Először is a metainformációk kezelése nehézkes. Képzeljük csak el, ha csak az agyból származó mintákkal akarunk foglalkozni. Valahogy ki kéne őket szűrni, de ahhoz egy másik táblázatot kellene felhasználnunk.

Természetesen nem megoldhatatlan a probléma, de miért mi párosítsuk az adatokat, ha erre már létezik kész megoldás?

SQL adatbázisok

Ez az adattárolás teljesen más formája. Egyrészt a táblák közötti kereszt referenciák kezelése jóval egyszerűbb lesz, másrészt maguk a táblázatok formája át fog alakulni. Az SQL nem teszi lehetővé, hogy mátrixunkat sor-oszlop formában tároljuk. Át kell alakítani azt egy három oszlopos formába, ahol az első oszlop a sor azonosító, a második az oszlop azonosító, a harmadik pedig a cella értéke, jelen esetben a nyers expressziós érték:

gene sample count
ENSG00000223972.4 GTEX-1117F-0226-SM-5GZZ7 3
ENSG00000223972.4 GTEX-111CU-1826-SM-5GZYN 4

Elsőre talán bonyolultnak tűnik ez a tárolási módszer, de van egy előnye: többé nem kell két dimenzióba gondolkodnunk. A szöveges állományok esetén egy ha egy újabb dimenzióval szeretnénk bővíteni a táblázatot, akkor az rengeteg többlet munkával jár. SQL esetén mindez egy új oszlop felvételét jelenti.

Most már készíthetünk egy új táblát, amiben megfeleltetjük az EnsEMBL azonosítókat gén szimbólumoknak, adhatunk hozzájuk kromoszóma pozíciókat, bármit, amit szeretnénk. A semmit mondó minta azonosítókhoz is rendelhetünk további információkat, mint amilyen a páciens neme, a szövet típusa vagy a mintavétel ideje. Miként használhatjuk ezt R-ből?

Ha például MySQL-ben (vagy MariaDB-ben) csináljuk mindezt, akkor használhatjuk az RMySQL csomagot.

library(RMySQL)
con <- dbConnect(MySQL(), user="user", password="abc123", dbname="gtex", host="localhost")
rs <- dbSendQuery(con, "select * from count")
raw <- fetch(rs, n = -1)
count <- xtabs(count ~ gene + sample, data = raw)
count <- as.data.frame.matrix(count)

Sajnos ez a nagyfokú szabadság nincs jó hatással a sebességre. Bármilyen optimalizáció nélkül a fenti kódot kb. 10 perc után leállítottam, mert 32GB RAM mellett is swappelt.

NoSQL adatbázisok

Számomra igazi meglepetés, hogy nincs olyan NoSQL adatbázis, ami képes lenne GTeX mennyiségű adat tárolására. Természetesen, aki nagyon akarja, bele tudja erőltetni az adatokat bármibe, de a BigTable típusú adatbázisok alapesetben képtelenek kezelni több ezer oszlopot. A HBase 3-4 oszloppal boldogul hatékonyan. A Google-féle BigTable büszkén hirdeti, hogy 100 oszlop családdal is megbírkózik, míg a HyperTable max. 255-öt kezel. Ez meglepetés volt nekem.

Összegzés

Mikor elkezdtem ennek a posztnak az írását, abban reménykedtem, hogy a végén találok egy olyan megoldást, ami hatékonyan kezeli a nagy táblázatokat. A sok telepítés és próbálgatás után viszont úgy látom, egy ideig nem szabadulunk meg a jó öreg szöveges állományoktól. Akinek a fenti megoldásokon kívül jobb ötlete van, kommentben nyugodtan írja meg.

6 komment

Címkék: bioinformatika

Kutatói értékelés

2018.02.25. 23:01 Travis.CG

Míg más szakmáknál nem okoz gondot a dolgozók teljesítményének meghatározása, addig a tudományos életben ez igazi kihívás. Egyrészt nehéz meghatározni, milyen értékeket mérjünk, hiszen a kutatás-fejlesztés nagyfokú bizonytalansággal operál. A másik probléma a kutatók személyisége, ugyanis a teljesítményük firtatását személyes támadásnak veszik.

Mindezt egy racionalizált köntösbe burkolják és nem a mérés tényét kérdőjelezik meg, hanem a mérés módját. Többnyire megoldási javaslatot nem adnak, hanem éles kritikai hangon, alacsony valószínűségű forgatókönyvek felvázolásával támadják a rendszert.

A bírálatok másik közös jellemzője, hogy azt állítják, az adott módszer csak a kiagyalójának előnyös. Nem állítom, hogy ezek a mérések teljesen objektívek lennének, de a tapasztalatom az, hogy aki rendesen dolgozik, azt nem éri hátrányos megkülönböztetés.

Nézzük meg, most milyen jellemzők alapján értékelik a munkámat és egy kis szimulációval nézzük meg, mit kell tennie annak, aki kiváló minősítést akar szerezni.

Az értékelés alapja egy pontszám, ami a súlyozott összege különböző kutatói tevékenységeknek, mint például hány könyvet írt az illető, mennyi PhD hallgatója volt, stb. Mindezt az elmúlt 3 évre. A pontszámot a következő R függvénnyel lehet kiszámítani:

calcScore <- function(ifjournal, topjournal, book, sumif, patent, cite, grad, phdnum, phdgrad, mscgrad, bscgrad, grant){
score <- ifjournal * 4 +     # Number of journal with IF
         topjournal * 20 +   # Number of top journals
         book * 5 +          # Number of books
         sumif * 1.2 +       # Sum of IFs
         patent * 5 +        # Number of patents
         cite * 0.1 +        # All citations (not just the last 3 years)
         grad * 20 +         # Number of degrees
         phdnum * 4 +        # Number of PhD students
         phdgrad * 4 +       # Number of graduated PhD students
         mscgrad * 2 +       # Number of graduated MSc students
         bscgrad * 1 +       # Number of graduated BSc students
         grant * 5           # Grants (million HUF)
return(score)
}

A topjournals egy nagyon homályos meghatározás, valami olyasmi, hogy olyan első vagy utolsó szerzős Q1 lapban megjelent publikáció, ahol nagyon rövid idő alatt nagyon sokan hivatkoznak rá, de képtelen voltam megjegyezni. Nekem úgy tűnik a gyakorlatban ilyen senkinek nincs, ezért a szimulációban is rendre 0 értékkel szerepel.

Ez a kutatói pontszám az én esetemben 130 körül van, illetve csak 48, mivel egyik cikkem sem itteni munkából származik, és mint ilyen, nem is számít az étékelésbe. Tudományos munkatárs esetén 150 pontot kell elérni, főmunkatárs esetén 300-t a kiváló minősítéshez (tanácsadónak az elképesztő 600-t). Lássuk, mi kell ehhez!

num_sym <- 1000

scientists <- data.frame(ifjournal = rep(0, num_sym),
topjournal = rep(0, num_sym),
book = rep(0, num_sym),
sumif = rep(0, num_sym),
patent = rep(0, num_sym),
cite = rep(0, num_sym),
grad = rep(0, num_sym),
phdnum = rep(0, num_sym),
phdgrad = rep(0, num_sym),
mscgrad = rep(0, num_sym),
bscgrad = rep(0, num_sym),
grant = rep(0, num_sym),
score = rep(0, num_sym)
)

for(i in 1:num_sym){
  ifjournal <- sample(1:10, 1, replace = T)
  topjournal <- 0 # I do not think it is real
  book <- sample(0:3, 1, replace = T)
  sumif <- sum(rnorm(5,2, n = ifjournal))
  patent <- sample(0:1, 1, replace = T)
  cite <- sample(2:300, 1, replace = T)
  grad <- sample(1:3, 1, replace = T)
  phdnum <- sample(1:3, 1, replace = T)
  phdgrad <- sample(0:1, 1, replace = T)
  mscgrad <- sample(0:2, 1, replace = T)
  bscgrad <- sample(0:2, 1, replace = T)
  grant <- sample(0:5, 1, replace = T)
  score <- calcScore(ifjournal, topjournal, book, sumif, patent, cite,   grad, phdnum, phdgrad, mscgrad, bscgrad, grant)
  scientists[i,] <- c(ifjournal, topjournal, book, sumif, patent, cite, grad, phdnum, phdgrad, mscgrad, bscgrad, grant, score)
}

Remélem elnézitek nekem az apply hiányát. Tehát úgy számoltam, hogy maximum 10 cikke jelenhet meg az illetőnek, max 3 könyve, a cikkei átlag 5 impakt faktort érnek, lesz max 1 szabadalma, legfeljebb 300 citációja, 3 tudományos fokozata, 3 PhD hallgatója, akik közül legfeljebb 1 végez, MSc és BSc hallgatókból pedig max 2-2 fejezi be tanulmányait és legfeljebb 5 millió forintot szed össze pályázattal.

simulation.png

Nos, ezekkel a mutatókkal egy főmunkatárs csak átlagos értékelést kaphat. A szimulációmban egyetlen kiváló főmunkatárs sem lett. De egy tudományos munkatársaknak is fel kell kötnie a gatyát. Ha csak három cikke jelenik meg, akkor is minimum 20 IF-t össze kell gereblyézni, 251 citációval a teljes életműből és még jó, ha van 2 végzett PhD hallgatója is. (A saját PhD időmre visszagondolva, velem ezek alapján nem sok témavezető járt volna jól.)

A szimuláció legjobbjának 10 cikke volt, 47 impakt faktorral, 3 könyvet írt (évente egyet), egy szabadalmat hozott össze, élete során 287 citációt szedett össze, 3 fokozata van, 2 PhD hallgatója van, de egyik sem végzett, 2 MSc hallgatója már lediplomázott, BSc hallgatókkal nem foglalkozott és 4 millió forint pályázati pénze volt. A szimuláció nem mondja meg milye van még ennek az embernek, de két valamilye biztos nincs: élete és kiváló minősítése.

Szólj hozzá!

Címkék: életmód

Buhera generáció

2018.02.18. 22:41 Travis.CG

A főnököm nagyon szorgalmazza, hogy legyen egy szakdolgozóm. Meg is kérdezte, milyen elvárásokat fogalmazzunk meg a kiírásban. Persze, jó lenne, ha tudna programozni, jó lenne, ha nem most látna először Linuxot és még sorolhatnám. A realitás talaján maradva csak annyit kértem, Facebook és YouTube-on kívül csináljon mást is a számítógéppel.

Arra gondoltam, aki nem csak egy interaktív tévének tekinti a számítógépet, egyrészt kreatív, másrészt talán rendelkezik olyan képességekkel, hogy érti, miért nem lehet végtelen mennyiségű programot egyidejűleg futtatni, mi az a memória vagy miért lassul le a gép, ha a merevlemezről elkezd olvasni.

Mondanom sem kell, nem találtunk ilyen embert. Ezen kicsit meglepődtem. Most, hogy a számítógépek teljesítménye hihetetlen lehetőségeket ad, az internet tele van információval, hogyan valósítsuk meg a legvadabb álmainkat is, nem találni olyat, aki ezeket felhasználná?

Gyorsan körbe is kérdeztem ifjú munkatársaimat, hogyan ismerkedtek meg a számítógépekkel és mit csináltak vele. Az első gépük már Pentium volt, és játszottak rajta. Egyikük tanult programozni, de utálta. Mondjuk ő most is előnybe részesíti a kódolás nélküli feladat megoldást. Ha egy feladatot meg lehetne oldani egy rövid scripttel vagy három másik program együttes alkalmazásával, általában az utóbbi mellett dönt.

Nekem annak idején nagyon tetszett, hogy a számítógép többféle feladatot meg tud oldani és erre én utasíthatom. Meg is próbáltam minél változatosabb feladatokra használni. Például mikor meg kellett tanulnom valamit, ami nehezen ment, írtam egy programot, ami kikérdezte az adott anyagot. Amikor először láttam egy animációt az immunrendszerről a Deltában, én is olyat akartam csinálni.

Egy barátom, akinek szintén PC volt az első gépe, QBasicben írt programot adott anyák napjára ajándékba. Ez mondjuk még az én szememben is ultrageek.

Eddig csak számítógépekről írtam, de természetesen az alkotás vágya nem kell, hogy arra korlátozódjon. Például egy gyerekkori barátom mosóporos dobozból robotot épített, ami emlékeim szerint valami mozgó bázisként funkcionált, mert a kisautói abból rajzottak elő.

De a nagyobb fiúk is, akik elég idősek voltak, hogy kismotorral járjanak, előszeretettel bütykölték járgányukat. Gyakran semmi értelmeset nem csináltak, csak szétszerelték, azután újra összerakták, miközben én szájtátva néztem az olajtól úszó, kimondhatatlan nevű alkatrészeket.

Kicsit szomorú vagyok, hogy így megcsappant az érdeklődés a buherálás iránt. El is határoztam, az én gyerekem nem ilyen lesz. Amikor csak módom volt rá, olyan játékokat játszottam vele, ahol fakockákból építeni kell vagy összerakni valamit.

Az elején egészen jól ment, látszott rajta, hogy élvezi. Aztán történt egy gubanc. A kockatorony, amit építettünk, másfél méter magasan elkezdett imbolyogni és leomlott. Ezen csemetém úgy felhúzta magát, felkapta a kockákat és elkezdte dobálni őket, majd tüntetőleg leült a YouTube elé és Kindertojás kicsomagoló videókat nézett. Minden további kísérletem a jövő nagy buherátorának felnevelésére kudarcot vallott.

Ahogy néztem, az jutott eszembe, hogy talán a tevékenység figyelemmel kísérése is olyan, mintha mi magunk csinálnánk. Hiszen nekem is mennyire tetszett, ha a nagyokat nézhettem motor szerelés közben. Az, hogy mindez manapság képernyőn keresztül történik, igazából részletkérdés.

Talán azért álltam neki annak idején animációt készíteni, mert nem tudtam, hogyan kell? Az információ hiánya váltja ki az emberekből a cselekvést? Esetleg a túl sok információ az, ami elrettenti az embereket? Hiszen ha kiderül, mennyi energia kell például egy animáció elkészítéséhez, sokan talán bele sem kezdenének.

A túl sok információ paralizáló hatásának érzékeltetésére van egy anekdota: Egy juhász, amikor látta, hogy egyik birkájának hályog nőtt a szemén, bicskájával eltávolította azt. Egyik ilyen műtétet meglátta egy városi ember és elkezdte magyarázni a juhásznak, mennyire veszélyes, amit csinál és milyen bonyolult dolog is ez. Ezek után a juhász keze remegni kezdett és többet egyetlen birkát sem gyógyított meg.

Szólj hozzá!

Címkék: filozofálás

Majdnem mindent az RNA-seq-ről (8.rész)

2018.01.28. 22:41 Travis.CG

Az RNA-seq adatokat nem csak expressziós változások meghatározására használhatjuk. A readek segítségével azt is megtudhatjuk, vannak-e mintáinkban fúziós transzkriptek. A fúziós transzkripteknek alapvetően két csoportja van. Az első, amikor az RNS polimeráz valami oknál fogva nem áll meg és két egymás közelében lévő transzkriptet ír át, majd ezek a további lépések során sem válnak el.

A másik csoportba azok a fúziós transzkriptek tartoznak, amelyek mögött genomi átrendeződés van. Ilyenkor egy reciprok transzlokáció következik be a genomi DNS-ben, ami szabványos transzkriptet eredményez és arról fehérje tud képződni.

Fúziós transzkripteket elsősorban tumor mintákban keresnek, de egyre több bizonyíték van rá, hogy normál mintákban is előfordulhatnak. Bioinformatikai szempontból a fúziós transzkript keresés nem más, mint olyan szekvenciák azonosítása, amelyek a fúziókat átérik. Ezek lehet szokatlan távolságú read párok, vagy olyan readek, amelyek a töréspont egyik végén indulnak, de a másikon végződnek.

Nyilvánvaló, minél hosszabbak a readek, annál biztosabbak lehetünk a fúzió valódiságáról, de érdemes megjegyezni, hogy a referencia szekvencia alapú megközelítéseknél (vagyis ha illesztjük a readeket) vannak bizonyos nehézségek.

Először is, a géncsaládok szekvenciái hasonlóak. Ez könnyen vezethet oda, hogy az illesztőprogram képes két távoli szekvenciára elhelyezni a readeket. A tapasztalat az, hogy a szoftveres úton azonosított fúziós transzkriptek nagy százaléka műtermék, ezért ismét csak megjegyzem, kísérletes validálás nélkül ne higgyjünk el semmit, amit a képernyőn látunk.

Én alapvetően két programot használtam. Az első az EricScript. A letölthető adatbázis ember esetén nekem nem működött, de ha magam készítettem el azt a Fasta fájlokból, akkor zökkenőmentes volt. Függőségei: Samtools, amiből csak a 0.1.19 verziót fogad el és a Blat. Ez utóbbi fordítását a dokumentáció rosszul jelöli, a helyes parancs a következő:

make -f makefile BINDIR=.

A program meglepően lassú és viszonylag kevés fúziós transzkriptet ad vissza. Egyes publikációk ezt tartják a legpontosabb programnak.

Tettem egy kísérletet a SOAPFusion-el is, de ezt nem sikerül használnom. Az EnsEMBL-ről letöltött GTF állományt nem szerette. A forráskód átnézése után a következő egy sorossal tudtam olyan GTF fájlt generálni, amit elfogadott:

grep "gene_id" ref_annot.gtf | grep transcript_id | grep gene_name | grep transcript_name >soap.gtf

A másik furcsaság, hogy a kromoszóma neveknek tartalmaznia kell a chr karaktert. A furcsa ebben az, hogy a forráskódban láttam egy részt, ami azonosítás után rögtön le is vágja azt. A formázások ellenére nem készített transcript.fa állományt a referencia genomból, ami a további lépésekhez elengedhetetlen, de hibaüzenetet sem adott, ezért tovább nem dolgoztam vele. Bár nem ez lenne az első alkalom, hogy kifogott rajtam a programcsalád egy tagja.

A STARFusion egy STAR illesztőre épülő fúzió detektáló program. Előnye, hogy rendkívül gyors, hátránya, hogy 30GB memória alatt el sem érdemes indítani. A STAR illesztő futtatása rejtve marad a felhasználó elől, de nekem néhány esetben szükségem volt, hogy saját magam futtassam azt. A STARFusion ugyanis rendezett BAM fájllal dolgozik és a sortBAMmemori opcióban megadott memória nagysága egyes nagy méretű BAM fájloknál nem elégséges. Érdemes lenne ezt a paramétert kivezetni a STARFusion-be. A dokumentáció egyébként részletes és pontos. Ugyanakkor furcsa, hogy az összehasonlító cikkek előszeretettel megfeledkeznek róla.

A programok pontosságáról nincs első kézből információm, mert eddig egyetlen projekt sem, ahol fúziós transzkripteket kerestünk, jutott el a validálásig. Egyedül annyit mondhatok, hogy a TCGA adatokon a STARFusion megtalál mindent, amit ebben az adatbázisban leírtak, sőt, még többet is.

Az adatbázis elkészítéséhez a PRADA programot használták, de agresszíven kiszűrtek egy csomó transzkriptet. Például azokat is, amelyek ötnél több tumor mintában előfordultak. Hiába, nem akarják, hogy az általuk elkészített adatbázisból mások írjanak cikket.

Szólj hozzá!

Címkék: bioinformatika

Időutazás

2018.01.18. 22:33 Travis.CG

Úgy adódott, hogy adatbázisokat kellett keresnem. A keresés közben rengeteg halott vagy zombi állapotban lévő oldallal találkoztam. Egyes esetekben viszont a régi oldalak éltek és valami megmagyarázhatatlan csoda folytán még működtek is! Túl sok értékük nincs, de mai szemmel nézve mosolyogtató látni a tíz éves megoldásokat.

Csatlakozzatok velem egy utazásra, ahol nincs JavaScript, nincs (vagy alig van) CSS, de vannak animált GIF-ek, rég elfeledett böngészők és 16 bites színek.

Az első Neal mutációs tudástára. Mindjárt egy IFRAME keretes weboldal köszönt ránk. Vagány napszemüvegek az oldal tetején, hogy lássuk, Neal milyen laza csávó volt a '90-es évek végén. De már akkor is ott figyelt a Big Data! Az akkori lehetőségekhez képest, persze. Neal ugyanis figyelmezteti az egyszerű felhasználót, hogy adatbázisának letöltése 2-3 órát vesz igénybe, ha modemmel próbálkozunk. Sajnos sosem fogjuk megtudni, hogy a Windows 3.1 alatt is futtatható programok milyen gyorsan töltődnek le a mai sávszélességgel, mert a linkek legtöbbje nem működik.

Külön érdekesség a linkek, ami az AltaVista előtti hagyományokat követi. Annak idején ugyanis a weboldalak tartalmaztak linkeket más, érdekes, gyakran teljesen irreleváns oldalakra. Mindenki maga gyűjtögette az általa hasznosnak ítélt tartalmakat, amiket aztán megosztottak másokkal.

Ez a koreai weboldal csak nyolc éves, de mintha az ezredforduló előtt készült volna. A gyönyörű gombok, az oldal alján meg figyelmeztetés, hogy 1280x1024-es felbontásban érdemes nézni az oldalt. A flexibilis UI-k világában meglepő, hogy annak idején a weboldalakat egy bizonyos felbontásra lőtték be.

Végül jöjjön a koronaékszer. Egy 2000-ből származó cikk adatai küszködnek itt az idő vas fogával. Az oldal megtekintéséhez Netscape kellene, abból is a 4-es verzió, de a mai böngészők is elég jól megbírkóznak az oldallal. Van némi CSS, de a formázások többsége a HTML kódban található.

Szólj hozzá!

Címkék: életmód bioinformatika

Politikai döntés

2018.01.15. 23:23 Travis.CG

Egy újabb régi munkára került fel a pont. Megjelent a második genom szekvenálásból származó cikkem.

A szarvassal már régóta foglalkoztak az intézetben. Mikor PhD hallgató voltam, már akkor is rengeteg előadást hallottam a vele folytatott munkákról. Ha jól emlékszem, 2014 körül jött el az idő, hogy a genomot is megszekvenálják. De nem az a csoport szekvenált, aki eddig szarvasozott, hanem egy másik csoport és talán itt kezdődött az az ellentét, ami végül egy hatalmi vitába torkollott.

Az elején az egész genom egy nagy rakás FASTQ read volt. Már az összerakás sem ment zökkenő mentesen, hála a pécsi szuperszámítógépnek, ami valahogy soha nem akart egy hónapnál hosszabb ideig üzemelni. Végül mégis lefutott az ALLPATHS és a nagy rakás FASTQ-ból lett egy kisebb rakás scaffold.

Igazából már ezzel is dolgoztak, mert emlékszem, kellett SNP-ket kibányásznom a szekvenciákból és a mitokondriális DNS vizsgálatok is mintha ebből merítkeztek volna.

Teljes mellszélességgel akkor kezdtem dolgozni az adatokkal, amikor felmerült az ötlet, hogy a genetikai térkép alapján próbáljuk meg összerakni a scaffoldokat pszeudó kromoszómákká. Elöször azonosítottuk a genetikai markereket, amelyeket a genetikai térképezés során használtak. Azokat a scaffoldokat, amelyek tartalmazták ezeket a marker szekvenciákat, azonnal el tudtuk helyezni a képzeletbeli kromoszómán. Ezen marker szekvenciákat, ha tudtuk, a szarvasmarha genomon is megkerestük.

Ha két marker ugyan azon a kromoszómán volt a szarvasban és a szarvasmarhában is, akkor feltételeztük, hogy azok a scaffoldok, amelyek Blasttal elhelyezhetőek a szarvasmarha genomra és a két marker között vannak, a szarvas genomban is a két marker között lesznek.

Mivel nem volt sok marker, így is sok lyuk tátongott a pszeudo kromoszómákon. Személy szerint itt meg is álltam volna, de akkor jött az újabb ötlet: vegyük bele a szarvasmarha gének sorrendjét is a játékba, mintha azok is markerek lennének. Ha tehát két marker között volt egy gén a szarvasmarha genomban, akkor úgy vettük, hogy a szarvasban is ott van.

Közben egyre több cikk jelent meg, ahol sika szarvast meg más rokon fajokat szekvenáltak tizesével, miközben mi egyetlen genommal vesződtünk. Volt egy szerencsétlen próbálkozás, hogy újabb szekvenálást indítunk, hosszabb readekkel vagy hosszabb távolsággal a readpárok között, de a pénzügyi helyzet közbeszólt. Inkább újabb ötleteket eszeltünk ki, hogy a szarvasmarha genom információkat a szarvasra alkalmazzuk.

Többször hangoztattam, hogy túl sok információt veszünk át más genomokból, ami nem feltétlenül igaz a szarvasra. Jutalmul részt vehettem egy megbeszélésen, ahol egyetlen szót sem kellett szólnom, cserébe tudomány történeti kiselőadást hallhattam arról, hogy az első lépések az ismeretlenbe nem feltétlenül a helyes eredményt adják. Például a nagy földrajzi felfedezések idején rajzolt térképek közelében sincsenek a kontinensek valódi formájával. Ez kétségtelenül igaz, de továbbra sem tudtam szabadulni a gondolattól, hogy túl nagyvonaltúak kezeljük az evolúciós folyamatokat.

Közben egy másik égető probléma is jelentkezett. A szarvasos csoport egyre inkább úgy tekintett a genom projektre, mint aminek nulla a tudományos értéke és inkább csak szentimentális töltete van. Történetesen úgy gondolták, hogy nem is kellene tudományos lapban megjelentetni, hanem a Nimródban, mert ez a vadászokat biztosan jobban érdekli.

Gyarló emberi lényként engem nem érdekeltek a vadászok. Lehet, hogy másképp lövik halomra azokat az állatokat, amelyeknek ismert a genomja, nem tudom. De nekem, mint kutatónak az egyetlen valutám a publikáció. Nimród, Kiskegyed nem tartozik ezek közé. Azon kívül a témán dolgozott nem egy PhD hallgató is, akiknek fokozat szerzése múlhatott volna egy ilyen döntésen. Egyébként nem is értettem, miért nem lehet egy tudományos közlés után megjelentetni róla egy összefoglalót?

Végül elkészültek a pszeudo kromoszómák és én elhagytam az intézetet. Kézzel még további scaffoldokat helyeztek el, ami elég sziszifuszi munka. De ezzel még nem volt vége! A szekvenciákat annotálni is kellett. Ez sem volt olyan egyszerű, mert a legtöbb annotáló program még bakteriális szekvenciákon is napokig fut. Ez pedig egy eukarióta volt. Részleteket nem tudok a folyamatból, de elég nehéz volt.

Közben a többiek a fentihez hasonló megbeszéléseket folytattak, ahol a visszatérő téma a sika szarvas szexuális élete volt. Egészen pontosan a gím és sika szarvas násza. Hiába, a kutatók válaszokat keresnek.

Majd jött a kézirat, ami legnagyobb megkönnyebbülésemre valahogy mégsem Nimródhoz akart bekerülni. Még kész sem volt a kézirat, de már kaptam a leveleket, hogy ne válaszoljak a sajtó kérdéseire, hanem irányítsam őket a ranglétra magasabb fokán állók felé. Gyorsan fel is szerelkeztem karókkal meg fokhagymával a lesből támadó, habzó szájú riporterek ellen. Ezeket komolyan kell venni. Ezek Nimródosok!

Közben szép lassan kibontakozott egy kisebb háború, hogy ki legyen a levelező szerző. A szarvasos csoport feje természetesen úgy érezte, hogy ő, mivel már regóta szarvassal foglalkozott. A szekvenálós csoport főnöke viszont magának akarta ezt a címet, mert nélküle még mindig PCR-el, meg arrayekkel szórakozna a másik fél. Volt ordítozás, nem-beszélés, minden, mint egy igazi szappan operában. Természetesen, ahogy minden sakk játszmában lenni szokott, itt is a gyalogok érezték a legrosszabbul magukat.

Az élet végül visszatért a szokásos medrébe. A riporterek elkerültek, a kutatók tovább dolgoztak, a gím és sika szarvasok pedig további hibridizáltak.

Korrekció:

Kaptam egy levelet, amiben a bejegyzés következő pontatlanságaira hívták fel a figyelmemet:

  1. A bioinformatikai csoport vezetője senkivel sem ordítozott, vele ordítottak.
  2. A bioinformatikai csoport vezetője nem akart egyes egyedül levelező szerző lenni, csupán megosztott levelező szerző.
  3. A bejegyzés azt sugallja, hogy az összerakott szarvas genome nem jó, de egy skót, nagy felbontású géntérképpel összehasonlítva a szekvenciák teljesen jók.
  4. Bár a poszt csak érintőlegesen említi mások munkáját, a megjelent cikk rosszul tartalmazza az említett csoportvezető hozzájárulását, mert ő rakta össze a genomot, ő találta ki a bioinformatikai pipeline-okat, és a pszeudokromoszómák összerakásának minkéntjét is.

1 komment

Címkék: publikáció

A nagy motiválás

2018.01.06. 16:15 Travis.CG

Öreg vagyok én már ehhez - gondolta Tuck az év végi csoportmegbeszélés után. Az egész egy igen furcsa e-maillel kezdődött, amiben főnöke a teljes csoportot elmarasztalta, név szerint említve minden egyes embert. Nem nehéz ilyet csinálni, ha mindenkire több feladatot osztanak. Előbb-utóbb valami lassabban fog menni. Márpedig a csoport minden tagjának több futó projektje is volt.

A levél szerint először egy megbeszélés lesz, majd utána mindenki bemutatja az aktuális futó feladatait és azok állását. Az nem volt tiszta Tuck számára, miért kell két megbeszélés, de mindegy is volt.

A megbeszélés közeledtével érezhetően növekedett a feszültség, de Tuck nyugodt volt, két okból is: Először is, az ő projektjei jól haladtak, még akkor is ha főnöke másképp látta. Volt már annyi tapasztalata, hogy tudja, milyen sebességgel kell mennie a munkájának, másrészt egyetlen korábbi munkahelyén sem volt gond a hatékonyságával. Másrészt átlátott főnökén. Ha mindenkit leszúrnak egy csoportban, akkor ott nem az egyénekkel van a hiba. Ez csak amolyan műbalhé, amit a hollywoodi filmek szigorú kiképző őrmesterei is előadnak. Amikor még zöldfülű volt, ő is bedőlt ezeknek a trükköknek, de negyvenhez közel, már unalmas volt számára,

Nem is vesztegetett túl sok időt a beszámolókra. A fiatalabbak még reménykedtek benne, hogy egy jó előadás talán csökkenti a főnök haragját.

A megbeszélés a szokásos volt. Semmit mondó cikkek unalmas előadásban. Ez részben munkatársai tapasztalatlanságának volt betudható, de Tuck esetében a tehetségtelenségnek. Valahogy mindig is képtelen volt jó kapcsolatot kialakítani a közönséggel, meg úgy általában az emberi faj más egyedeivel. Talán emiatt is fordult a matematika felé. Így sikerült egy olyan szakmát választania, amivel még jobban elhatárolta magát embertársaitól. De ez a távolság tartás segített neki abban, hogy jobban felfigyeljen a társas kapcsolatok szabályszerűségeire. A mintázatokra, ahogy ő maga hívta.

Az utolsó előadás után a hallgatók elbúcsúztak és akik maradtak, feszült csendben várták az ítéletet. Tuck azon mélázott, vajon kirobbanás vagy lassú felvezetés lesz?

- Ma rákerestem a nevemre az Entrez-én - kezdte a csoportvezető. Lassú felvezetés - gondolta Tuck. - Harminchárom cikk társszerzője vagyok ebben az évben. A legtöbbjére nem is emlékszem, azt sem tudom, hogyan kerültem bele. Ezzel szemben a csoport hat publikációt közölt idén. Ha megszüntetném a csoportot, akkor is lenne 26 cikkem.

Tuck szkeptikus volt ezzel kapcsolatban, de hallgatott. Ha a lassú felvezetést mindjárt az elején megakasztja, este tízig is itt fognak ülni.

- A célom, hogy ezt a két számot megcseréljem.

Tuck gyorsan körbenézett. Három PhD hallgató, ugyan ennyi posztdok. Ez fejenként négy cikk és egy beküldött kézirat? Három havonta egy publikáció? De mindegy is, milyen számokat hall. A lehetetlen célok kitűzésével folyamatosan nyomás alatt lehet tartani az embereket.

- Növelni kell a hatékonyságot, ez így nem mehet. Tegnap előtt is felkerestek a Központi Urológiai Képalkotó Intézettől, hogy tudunk-e tumor mintákat adni nekik. Én behazudtam nekik, hogy tudunk. De tényleg tudunk? - itt az egyik posztdokra nézett, akinek xenograft modellek előállítása volt a feladata. Eddig nem járt sikerrel.

- A halakat nehéz fenntartani. A törzseket fenn kell tartani és nincs elég hely az akváriumban.

- Felőlem befőttes üvegekben is úszkálhatnak a halak, de ha nem hazudok be nekik valamit, akkor más partnert keresnek. Megmutatták milyen mikroszkópjuk van: belelát a szövetek közé. Science cikket írtak belőle, de senki nem idézi őket, mert nem értik, mire is lehet használni. Ha be tudjuk bizonyítani, hogy a klinikai gyakorlatban is használható, akkor azt a cikket rengetegen fogják idézni. De ehhez az kell, hogy legyenek halak!

- Mi a helyzet a statisztikai elemzéssel, amit kértem? - fordult most Tuck felé.

- Egy nem-paraméteres összefüggéssel már végigszámoltam, de szerintem lehetne növelni a statisztikai erőt, ha egy másik próbával is megismételném az elemzést.

- Nem, erre nincs idő. Tapasztalatom szerint a partnerek nem várnak hónapokat. Ma este átküldjük, ami van. Ha érdekli őket és válaszolnak, akkor folytatjuk, de ha nem, akkor nem vesztegetünk több időt rá. Az is lehet, hogy mással már rég megcsináltatták.

A főnök ezek után az egyik PhD hallgató felé fordult, ak valami rejtélyes oknál fogva a kutatás mellett rengeteg adminisztrációs munkát is végzett. A csoport ugyanis tagja volt egy ipari partnereket is tömörítő konzorciumnak és mint ilyennek, rengeteg koordinációs feladatot is el kellett látni.

- A szerződés szövege elkészült?

- Angol jogi szöveget kell megfogalmaznom, ez nekem nem megy egy hét alatt.

- Csak nagyjából kell jónak lennie. Küldd tovább a cégnek, csináljanak azok is valamit. Ők majd kijavítják, vannak jogászaik.

- De akkor...

- Nem vesztegethetünk ennyi időt! Ha nem látnak valamit, kilépnek a konzorciumból és nem kapjuk meg a pénzt. Legyen náluk a labda. Ha majd mégis van további kérdésük, úgy is visszaküldik.

A hallgató megsemmisülten elhallgatott.

- Rendben, ha más nincs, akkor mindenki mehet haza. Mi meg elküldjük az eredményeket - mutatott Tuck-ra.

Miután a többiek összecsomagoltak, Tuck és felettese bementek egy irodába. A számítógépen megnyitották Tuck előadását, majd főnöke kijelölte az egészet és bemásolta egy Word dokumentumba. A betűk őrült formákat vettek fel. Az ábrák össze-vissza álltak, ahogy megpróbálták megkeresni helyüket a virtuális oldalakon. Az egész egy nagy tészta masszára emlékeztetett, de a férfi oldal törésekkel, új sor beszúrásokkal regulázni kezdte a bekezdéseket. Az egész folyamat olyan volt, mintha egy félig felfújt gumimatracot próbálna meg dobozba zárni. Valami mindig kilógott.

Végül elég új sor és oldal törés volt benne, hogy a mondatokat egy helyre szögezze. Ekkor kezdődött az igazi munka: a formázás. A szavak a mondatban betöltött fontosságuk szerint félkövérek, pirosak vagy dőltek lettek, esetleg mindegyik egy kicsit.

Azután jött az összefoglalás. A dokumentum különböző oldalain szétszórt eredményeket a mágikus billentyű kombinációval kimásolta, majd egy másik mágikus kombinációval egy helyre beszúrta újra. Ami az eredeti helyén félkövér volt, most piros lett, ami piros volt, dőltté változott, ha meg történetesen dőlt volt, félkövér lett. Ez már elég változatosság volt, hogy ne legyenek a szövegek égbekiáltóan egyformák.

- Kész! - jelentette ki a csoport vezető. Mielőtt Tuck felocsudhatott volna megdöbbenéséből, már hozzá is csatolta egy levélhez és elküldte. Csupán fél óra volt az egész.

Szólj hozzá!

Címkék: irodalom

Nehéz szülés 2

2017.12.24. 23:15 Travis.CG

Ha ez volt a nehéz szülés, akkor a mostani a farfekvéses ikrek voltak. Ha létezik elátkozott projekt, akkor ez az volt.

Természetesen ez a projekt is úgy indult, hogy "nagyon gyorsan kell az eredmény, mert a kínaiak megelőznek minket". Ha jól emlékszem, 2014 tavaszán kerestek meg minket. Kis RNS-t és transzkriptómot szekvenáltak paprikából és elég jól indult a projekt. A benthamianas munkából okulva igyekeztem a minimálisra szorítani a felesleges munkát és elkerülni az ottani baklövéseket. Ebben, a munka oroszlán részét végző PhD hallgató is nagy segítségemre volt és még azt a hálátlan feladatot is zokszó nélkül megtette, hogy pufferként működött a bioinformatikusok és a laborosok között. Kevesebb értelmetlen kérés jött és tőlem is csak azokat az eredményeket továbbította, ami 100%-os volt. Bármi bizonytalanság volt, inkább kérte, hogy nézzem át alaposabban. Nagyon jó volt vele dolgozni.

Mint minden jó dolognak, ennek is vége szakadt. Őt is utólérte a pénztelenség, ezért elment egy céghez, ahol annyira meg voltak elégedve vele, hogy próbaidő után még fizetés emelést is kapott.

Az utolsó pár hónapban nagyon keményen dolgozott, hogy minden kísérletes munkát befejezzen és elmondása alapján be is fejezett. A bioinformatikai elemzés is kész volt, megvolt a validálás is, most következett az írás. Illetve nem-írás.

Egyfajta ping-pong játék kezdődött, ahol egy halandó kéziratokat gyártott és elküldte azokat az Olümposzra, majd az Istenek félresöpörték azt. Egy ideig tartottam a kapcsolatot a PhD hallgatóval, de mikor az olyan kérdésekre, mint "hogy vagy?", a válasz a projekt alakulása volt, inkább leálltam.

Amit hallottam, az nem volt megnyugtató. Kitalálták, hogy újabb kísérletek kellenek. Egy másik PhD hallgató folytathatta a munkát. Aztán én is elhagytam az intézetet, ezért a bioinformatikai munkára is új embert kerestek, akiről olyan pletykák keringtek, hogy még a mirDeep-P-t sem tudta lefuttatni.

Én le is mondtam róla, hogy valaha cikket látok a munkából. Vagy ha lesz is valami, engem biztos kihagynak belőle. Ezért is ért váratlanul, mikor 2017 áprilisának végén kaptam egy kéziratot áttekintésre és ott virítottam a szerzők között.

Az első célpont a Journal of Experimantal Botany volt. Négy napot töltött ott a kézirat, majd visszadobták. A következő cél a Frontiers in Plant Science volt. Itt is hasonló idő elteltével dobták vissza. A kritika elég kemény volt: A cikkben nincs hipotézis és a szekvenciákat nem töltötték fel az SRA-ba. Ez utóbbi az én hibám is, nem tűnt fel a kézirat elolvasásakor.

A komment csak annyi volt: "elvaultunk". Teljes beletörődés saját tehetetlenségünkbe. El is küldték a BMC Genomics-ba. (jun 1), ahol már több, mint négy napot töltött! Három rewiever is átnézte és az egyik közös pont, amiben mindenki egyetértett, hogy két ismétlés nem elég differenciál expresszióhoz.

Őszintén szólva nem emlékszem, hogy annak idején szóltam-e emiatt. Nagy valószínűséggel nem, így a hiba halomból ez az én részem. Csak egy szánalmas kifogás jut eszembe: úgysem hallgattak volna rám.

Viszont ez egy jó lecke volt nekem arra nézve, hogy publikáció orientáltan kell gondolkodni. A kísérlet tervezésénél, ha kompromisszumot kell kötni, az nem mehet a publikálhatóság rovására.

Ezen most már hiába kesergünk. Mai eszemmel átnézve a kísérlet felépítése egy vicc. (Két genotípust szekvenáltak. Az egyiknél három szövetet, a másiknál csak egyet. Az egyiknél 28 és 40 napos minták voltak, a másiknál 14 és 20 naposak.)

Természetesen a levelezésből ismét sütött a lemondás. Nem is tudom, mi irritált a legjobban. A tény, hogy energiát vesztegettem egy mostani eszemmel nyilvánvalóan hibás kísérletbe vagy az, hogy mások milyen könnyedén elfogadják ezt.

Elkezdtem agyalni, hogyan lehet menteni a projektet. Ami nyilvánvaló volt, nem lesz új kísérlet, nem lesz új szekvenálás, csak a hozott anyagból lehet építkezni. Ha a mintákat szövet szerint csoportosítjuk, kapnánk négy ismétlést. Nem tudom, mekkora szórás lenne a különböző időpontok miatt, de egy próbát megért volna.

A felvetésemre senki nem reagált, amikor írtam a szerzőknek, csak annyi választ kaptam, hogy "nagyon dolgoznak rajta". De az eltelt idő alapján egyre valószínűbb, hogy a projekt teljesen halott.

Szólj hozzá!

Címkék: publikáció

Elefánt a fordítóban

2017.12.17. 23:31 Travis.CG

Úgy döntöttem, az otthoni rendszeremet felvértezem Hadooppal. Nem teljesen légből kapott az ötlet, meg akarom ismerni a Sparkot, amihez nem árt, ha Hadoop is van. De akkor már telepítem a Hive-ot is. Meg a HBase se maradjon ki. Mivel az életem egy viszonylag nyugodt periódusban van, úgy határoztam, mindent forráskódból rakok fel.

Ha Java alapú rendszereket fordítunk, a Maven elengedhetetlen. Telepítsük ezt is forráskódból! Ez nem olyan egyszerű, mert a Maven fordításához is Maven kell. Ha el akarjuk kerülni az önmagába harapó kígyó esetét, kompromisszumos megoldásként le kell tölteni egy bináris Mavent is. A folyamatot bootstrappingnek hívják és a GCC fordítása során már írtam róla.

A második lépés a Hadoop fordítása volt. Ez már nem ment olyan egyszerűen. Telepíteni kellett a ProtocolBuffert, szigorúan a 2.5.0-t. Ez viszont régi, a telepítő nem tudta letölteni a szükséges állományokat, mert a curl parancs egy elavult verzióját használta. Ezért átírtam a kódot wget-re. Utána már fordíthattam is a Hadoopto:

mvn package -Pdist -Pdoc -Psrc -Dtar -DskipTests

A Hive teljesen fájdalom mentesen fordult:

mvn clean package -DskipTests

A Spark már okozott némi gubancot. A fordításhoz nem raktam fel a szükséges R csomagokat, ezért többször újra kellett indítani a folyamatot. A forráskódhoz mellékelt szkript viszont remekül végezte a dolgát. Mindent fordítottam, ezért szép hosszú parancssort gépelhettem:

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phadoop-2.7 -Phive -Phive-thriftserver -Pmesos -Pyarn

A HBase okozta a legnagyobb fejfájást. A standard fordítási lépések rendre kudarcba fulladtak, ráadásul a keresőbe beírva nem azok a találatok jöttek fel, amelyek segítettek a megoldásban. Végül a hibaüzenetet idézőjelekbe rakva megvolt a megoldás! A Manve 3.5.2 nem képes lefordítani a HBase-t. A fejlesztők viszont azt találták, hogy a régi Maven zokszó nélkül teszi a dolgát.

A régi Mavent csak binárisan töltöttem le, mert nem szándékoztam megtartani. Azt használva ez a komponens is fordult.

Szólj hozzá!

Címkék: hadoop

Lassú víz

2017.12.14. 23:11 Travis.CG

A blogbejegyzés olvasása közben ezt a zenét javaslom:

Az egész úgy kezdődött, hogy kértem hozzáférést a magyar szuperszámítógépekhez. Először is, ki kellett tölteni egy webes űrlapot, ami elküld egy PDF-et, amit ki kell nyomtatni, tintával aláírni és elpostázni vagy elfaxolni a NIIF-hez. Már van ebben némi rutinom, nem számítottam rá, hogy bármi bonyodalom lesz.

Először is, az egész intézetben egy darab faxgép/fénymásoló/nyomtató volt, az sem működött. Nem kapott vonalat. Egy titkárnő próbált segíteni nekem, nem sok sikerrel. Már ki akarta rá tenni a táblát, hogy rossz, amikor rövid nézelődés után észrevettem, hogy nincs bedugva a telefon kábel. Biztos ti is láttátok a reklámot: ha ennél olcsóbban adnánk, neked kéne összerakni.

Az emailben, amiben megkaptam a PDF-et, a megadott szám nem válaszolt. Még egyszer elküldtem. Beírtam a 06-t elé, kihagytam a 06-t. Semmi reakció. Persze minden egyes próbálkozás 10 perces szünetekkel ment, mert az a nyomorult gép tárcsáz, újratárcsáz, közben érkezik negyven papír, amit a gazdasági hivatal nyomtat. Végül kiköpi a szerencsétlen a jelentést, amiben közli, hogy nem sikerült.

Aztán észrevettem, hogy a PDF-ben szereplő telefonszám és az emailben megadott szám eltér. Nosza, próbáljuk ki azt is! Természetesen 06-al, anélkül, stb. Erre elment!

Egy hét múlva sem érkezett válasz. Még annyi sem, hogy megkaptuk a tetves papírjaimat. Akkor írtam egy e-mailt. Két-három nap múlva válaszoltak is, hogy megkapták az faxot és ők úgy tudják, mindkét fax szám működik. Hahaha, rosszul tudjátok.

Megint eltelt egy hét és jelezték, hogy a témaszámot elfogadták. Nagyszerű, most jön a projekt igénylés! Ezt már elméletileg a HPC portálon lehet intézni, de a valóságban nem működik. A témaszám elfogadásáról kapott email még tartalmazott egy régi linket, amit évekkel ezelőtt használtunk a hozzáférés igényléshez. Azt is kitöltöttem, kinyomtattam, faxoltam. Mivel a faxszám megegyezett azzal, ami korábban nem működött, elküldtem oda is, a másikra is, ami működött, 06-al, anélkül.

Egy hét után ismét írtam. Leírtam, hogy nem megy a portál, elküldtem a faxokat, most mi van?

A hozzáférés igénylésnél kérték, hogy becsüljem meg, mennyi erőforrást akarok használni. A Sangerben használt erőforrás igényt jelöltem meg (10T tárhely, 80GB RAM, kb. egy hét futás idő 4 processzoron). Mint később végiggondoltam, kicsit alábecsültem a szükségleteimet. De még ez is kiverte a biztosítékot náluk. Az email után kb. egy órával már kaptam egy levelet, amiben az után érdeklődtek, miért kell nekem ennyi tárhely? A processzor idő nem sok, de ezzel a rengeteg memóriával együtt nagyon szokatlan.

Szépen leírtam nekik, hogy mi, bioinformatikusok perverz vonzalmat érzünk a tömörítetlen szöveges állományok iránt, ezért kell ez a sok hely. Az R meg memóriából él. Ismét eltelt egy hét. Újabb emailt küldtem. Azt írták, tényleg nem megy a portál, kijavítják és majd válaszolnak.

Mivel nem akartam, hogy túl rámenősnek tartsanak, vártam. Eltelt egy hónap, ismét megkérdeztem, mi a helyzet. Két emailt is kaptam, olyan sebtében összedobva, hogy először azt hittem, gugli fordítóval készítette egy nigériai diktátor, hogy kimentse vagyonát az én bankszámlám segítségével. Ekkor elkezdtek dolgozni. Másnap már láttam a projektemet a portálon.

Csak bejelentkezni nem tudtam.

Újabb emailt írtam a problémáról. Bár korábban leírtam, milyen felhasználó nevet akarok, de ezt figyelmen kívül hagyták és generáltak nekem egyet. Ez a felhasználó nevem: oqqn0bf. Ha lenne benne nagy betű, még jelszó is lehetne. De ezen már nem bosszankodtam.

Jött ugyanis az újabb probléma. Nem kaptam processzor időt. Eredetileg a Debreceni gépre kértem hozzáférést, így itt akartam kipróbálni, mit tudok, de az I/O olyan lassú volt, mint egy szalagos egységnél. Kipróbáltam a Debrecen2-t, ami normális sebességgel működött. Ezért oda kértem a processzor időt.

A következő héten ismét kaptam egy levelet, hogy miért akarom én a Debrecen2-t használni, amikor az GPU-s programokra van, írjam le, milyen GPU-s programot akarok használni. Visszaírtam, hogy akkor adjanak a Debrecen1-re. Persze nem adtak. Akkor igényeltem arra a gépre is a portálon keresztül, és végre megkaptam.

Mintha nem is emberekkel kommunikálnék, hanem egy Johnny taxival. Persze futtatni továbbra sem tudok semmit, mert a lassú I/O okát nyomozzák és minden futó folyamatot felfüggesztettek.

5 komment

Bioinformatika 2017

2017.12.07. 22:38 Travis.CG

A Bioinformatika 2017 konferencia nem csak a Magyar Bioinformatikai Társaság konferenciája, hanem az Elixir első rendezvénye is volt. A csoportvezetők mellett a PhD hallgatók is előadhatták kutatási eredményeiket. A rendezvényről video felvétel is készült, ha lesz link, itt fogom közzétenni én is. (Szerk: A videók itt találhatóak.)

Csabai István: Kollaboratív keretrendszer genomikai adatelemzéshez
A genomika felfutóban van, egy projekten belül több, különböző háttérrel rendelkező ember dolgozik, gyakran nagy földrajzi távolságban. A megoldás egy felhő alapú rendszer, aminek a Jupyter notebook az alapja, GitLab a verzió követő rendszere, míg a számítás virtuális gépeken megy. Van jogosultság rendszere és kommunikációs felülete. A szolgáltatás itt található.

Barta Endre: Transzkripciós faktorok és kofaktorok topológiájának vizsgálata a DNS-en ChIP-seq adatok elemzésével
A munka során a szabadon elérhető Chip-seq adatokat elemezték újra. A peak legmagasabb pontját meghatározták és ezt tekintették kötőhelynek. A CTCF pozícióhoz képes a többi kötőhely pozíciója nem véletlen szerű, ezért a kötőhelyek egymáshoz viszonyított helyzetére lehet következtetni. Az elcsúszás mértékéből még azt is meg lehet állapítani, hogy a motivum közvetlenül vagy közvetve kötődik-e a DNS-hez.

Antal Péter: Bayesi rendszerszintű vizsgálatok a közös genetikai háttér felderítésére komplex fenotípusok, betegségcsoportok és betegségek összessége esetén
A genetikai asszociációk a kezdeti SNP/fenotípus kapcsolatból tovább fejlődtek. A túlzott többszörös teszt korrekciót a Bayes módszerrel igyekeznek orvosolni, ahol imputációval a már létező háttértudást igyekeznek bevonni a számításokba. Az így keletkező hálózatok rendkívül bonyolultak, mert a gráfok részletesebb leírást adnak, de a feldolgozásuk is időigényesebb.

Fuxreiter Mónika: A szerkezeti elmosódottság szerepe a fehérjék szerveződésében
Az előadáson nem voltam.

Mészáros Bálint: Rendezetlen fehérjék és fehérje régiók szerepe a rákban
Az előadáson nem voltam.

Pongor Sándor: Molekuláris jelzések és a mikrobiális közösségek stabilitása
A mikrobiális élőlények még mindig a legynagyobb metabolizáló állomány a Földön. A megfigyelések alapján tudjuk, hogy a sejtek "tudják", hogy elég a számuk egy erőforrás feldolgozásához, ami azt jelenti, hogy kommunikálnak és kollaborálnak. A kommunikációs géneket matematikailag modellezték, majd megpróbálták a azok evolúcióját is feltárni. Ha a kommunikációs gének mutálódnak, kevert populációk jönnek létre, melyek túlélése kihathat a teljes állományra. Szerencsés esetben az egyik szubpopuláció felül tud kerekedni és túlél. Rossz esetben a hátrányos szubpopuláció gátolja a többi terjeszkedését is.

Gáspári Zoltán: Térszerkezeti sokaságok szerepe a fehérjék szerkezet-hatás összefüggéseinek megértésében
A fehérje szerkezetek meghatározásának egyik legjobb módja, ha kísérletes eredményeket kombinálnak molekuladinamikai számításokkal. Egy prediktált szerkezet validálása bonyolult folyamat, fennáll a túlillesztés veszélye. A csoport készített egy webszervert, melynek célja, hogy elvégezze ezt a validálást.

Szöllősi Gergely János: Horizontális géntranszfer események mint molekuláris fosszíliák
A molekuláris szekvenciák közti különbségek az idővel arányosan nőnek, ezért molekuláris órákként lehet őket használni. Ezek az órák nem globálisak, hanem élőlény csoportonként eltérhetnek. Jelenleg a fosszíliákat tekintik az egyetlen valós bizonyítékoknak, de azok sem képesek minden kérdéses eseményt megmagyarázni. A horizontális géntranszferből eredő bizonyítékok viszont kiegészítheti a fosszíliákat és precízebb génfákat eredményezhetnek. Az elmélet implementációja itt található.

Bálint Mónika: Hogyan csomagoljunk be egy célpontot?
Fehérje molekulák célba juttatásánál fontos azok becsomagolása, hogy a kötőhelyeket megvédjék. Jelenleg két módszer létezik: az AutoDock és az úgynevezett blind docking. A csoport egy harmadik módszert dolgozott ki, amit wrap'n'shake-nek neveztek el. Habár még nincs validálva, a szintetikus teszteken jól teljesít.

Fichó Erzsébet: Rendezett rendezetlenség
A rendezetlen fehérjék kapcsolódhatnak más rendezett vagy rendezetlen fehérjékhez. A PDB, GO és PubMed információkat felhasználva két webszolgáltatást hoztak létre, melyek célja a kölcsönhatás függvényében a rendezetlen fehérjék és azok partnereinek összegyűjtése. A DIBS esetén a rendezetlen fehérjék globuláris partnerekhez kötődnek, míg az MFIB a rendezetlen-rendezetlen kapcsolatokra specializálódott. A két adatbázis a rendezetlen fehérjék teljes spektrumát lefedik.

Dobson László: Rendezetlen fehérjék komplexeinek vizsgálata szekvenciális, szerkezeti és funkcionális szempontból
A rendezett és rendezetlen fehérjék között rengeteg átmenet fordulhat elő. Például egy rendezetlen fehérje is lehet stabil, ha bizonyos partnerekhez kötődik. Kérdés, hogy a rendezetlen-rendezetlen komplexek tagjai lehetnek-e targetek?

Kerepesi Csaba: Öregedést befolyásoló fehérjék predikciója gépi tanulással
A GeneAge az öregedéssel összefüggésbe hozható gének adatbázisa. A kutatási téma célja, hogy gépi tanulás segítségével lehet-e közös jellemzőket találni a gének között, illetve a trenírozott modellel lehet-e új géneket találni? Az XGBoost csomagot használva döntési fát hoztak létre, amelyek jellemzői GO termek voltak.

Medgyes Horváth Anna: Humán mitokondrium haplotípus meghatározás és filogenetikai analízis szennyvíz mintákból
A projekt úgy indult, hogy járványok metagenomikai vizsgálatát végzik szennyvízből, de időközben humán mitokondrium haplotípus azonosítás lett belőle. Az eredmények sem okoztak túl nagy meglepetést: Afrikában az afrikai haplotípus volt döntő többségben, míg ázsiában az ázsiai. Amerika sajnos kevert mintát mutatott.

Nagy Gergely: Makrofág transzkripciós faktor kaszkádok vizsgálata ATAC-seq-kel
Egér modelleken ATAC-seq-kel vizsgálták a makrofágok transzkripciós szabályozását. Több szekvenálással a folyamatot időben nyomon követték és megpróbálták a jelátviteli útvonalat feltérképezni.

Pongor Lőrinc: Mintavételezés hatásának vizsgálata ovárium tumoros betegekben újgenerációs szekvenálással
A tumor egy evolúciós folyamat, tehát szekvenálásnál egy kevert populációs kapunk. Kérdés, hogy a tumor mérete hogyan befolyásolja a szekvenálást? Sequenza segítségével határozták meg a cellularitást, Mutect 2-vel a variációkat. Az eredmények azt mutatják, hogy a méret nem befolyásolta a mutációk számát, mert a nagy mintában a kis klónok kihígulnak.

Pipek Orsolya: Egyedi mutációk gyors és megbízható detektálása izogenikus mintákban
Az előadásban megismerhettük az IsoMut programot, mely hasonló mintákból olyan mutációkat keres, melyek csak kevés mintára jellemzőek. A program már több publikáció alapját is képezte.

Végezetül egy kis anekdota: A molekuláris fosszíliák előadás után az egyik kérdező feltétlenül szükségesnek érezte bejelenteni, hogy meghatározták a bibliai Éva genomját. Az előadó egy pillanatra megfagyott egy kényszeredett mosolyban, majd azzal vágta ki magát, hogy a mitokondriális DNS vizsgálatával tényleg meg lehet állapítani egy ősi mitokondriális szekvenciát, amit hívhatunk Évának, de a kérdező tántoríthatatlanul állította, hogy Évát bizony megszekvenálták. Több komment nem volt.

Ugyan ez a kérdező a haplotípusos előadás után megkérdezte, hogy a dia, ami az emberi faj feltételezett elterjedését ábrázolta, a Pangea állapotot tükrözi-e. Az előadó nem tudta, mit válaszoljon, végül azt mondta: igen. Sajnos a mentés későn érkezett. Az egyik kutató megjegyezte, hogy a Pangea idején még nem volt ember.

1 komment

Címkék: bioinformatika

Ejnye-bejnye

2017.12.02. 23:51 Travis.CG

Már megint rosszalkodtatok, gyerekek? Nem megmondtam, hogy rendesen publikáljatok! Mondtam nektek, hogy tegyétek fel a kódot GitHubra. Milyen kódot? Hát amiről a drágalátos cikketek szól!

Nem, gyerekek, nem azt kértem, hogy tegyetek egy GitHub linket a cikkbe, mert az olyan nagyfiús. A GitHub nem arra való, hogy SVG képeket rakjatok ki, hanem a forráskódot. Tudjátok, megismételhetőség és a többi dolog, amit már kiscsoportban is gyakoroltunk. Így a többi gyerek nem tud játszani a programotokkal.

Van letöltési link? Hol, drágaságaim? A wiki oldalon? Had nézzem csak! Jaj, gyerekek, még mindig nem tudom letölteni, mert itt egy link van az intézet weboldalára, ahol még egy újabb email írása után kapjuk meg a programot. Ez nagyon nincs rendben!

De ha már itt vagyunk a wikin, akkor írjátok le rendesen: Tuxedo pipeline és mellőzzétek a kiscsoportosokra jellemző "a többi eszközt nehéz nem emberi fajokra beállítani", mert tiéteket jelenleg nem lehet letölteni sem. Ha már itt tartunk, azt sem tudjuk meg a wikiből, hogyan kell beállítani a ti programocskátokat. Annyira azért nem lehet egyszerű, hogy le sem kell írni.

Nem akarom hallani a kifogásokat! Ha a csoportvezetőd azt mondja, ugorj a kútba, akkor beleugrasz? A GitHub-on is láthatod a letöltéseket, nem kell eltéríteni a felhasználót.

Még mindig van problémátok? Tényleg? Amíg ezeket a hibákat ki nem javítjátok, nem kezellek benneteket felnőttnek.

Szólj hozzá!

Szolgálunk és értünk

2017.11.23. 23:29 Travis.CG

Egy pár rendszergazda itt is nagy kedvencem lesz, látom. Új ismerősöm, a Hegylakó. Szeretném, ha csak egy maradna belőle.

Egyik nap megkérdezték tőlem, tudok-e csinálni FTP szervert, mert milyen remek is lenne, ha arra küldenék el az adatokat a partnerek. Elmondtam, hogy maga a szerver felállítása nem probléma, de ha azt akarjuk, hogy az intézeten kívülről is elérhető legyen, beszélni kell a rendszergazdákkal is.

Mindjárt meg is kaptam a lehetőséget, hogy a kapcsolati tőkémet gyarapíthassam. Kétszer nem sikerült elérni őket az irodájukban, de ebéd után rájuk találtam. Elő is adtam kérésemet. Egy magas, hosszú hajú rendszergazda vette a fáradságot, hogy meghallgassa. A két szemtengelye nem volt párhuzamos, ezért egy ideig gondot okozott, hova is nézzek, mert az volt az érzésem, hogy a bal szemével mustrál valakit a hátam mögött, miközben a jobb egyenesen rám meredt.

- Persze, meg tudjuk oldani, kell szólni a főnökünknek. Ő most nincs itt, nem is lesz ezen a héten, de az e-mailt figyelemmel kíséri. Most én hiába mondok bármit is, ha ő azt mondja, hogy máshogy csináljuk. A gépteremhez is neki van csak kulcsa. Mennyi adatról lenne szó?

- Tíz és húsz gigabájt köztt.

- Nem lenne jobb egy webes feltöltés? - szólt közbe egy másik rendszergazda.

- Nem. A HTTP protokollnak van egy csomó gyengesége. Nagy adatokhoz nem a legjobb - válaszoltam. Közben végigfutott az agyamon a számtalan kerülő megoldás, amivel mindenki igyekszik elérni, hogy ne kelljen óriási fájlokat weben feltölteni.

- Kell szólni a főnöknek - vette vissza a beszélgetés fonalát Hegylakó. - Ő majd megmondja, mit kell csinálni. Kell írni neki egy levelet, leírni, mennyi adatról lenne szó. Az is lehet, hogy javasol valami jobbat az FTP-nél, nem tudom.

A levelet meg is írtam. A válasz szerint, az intézetnek már van felállított FTP szervere, a levélben el is küldték a felhasználó nevet, de a jelszóért vissza kellett mennem a "fiúkhoz". Biztonság mindenek felett.

A fiúk megint nem voltak a helyükön. Óránként visszajártam és két sikertelen megkeresés után, harmadszor kaptam el őket. Hegylakó rögtön értette, miért jöttem.

- Most olvastam a főnök levelét. Én nem is tudtam, hogy ilyenünk van! A jelszó meg... - itt vágott egy olyan arcot, mintha a kezembe zöld taknyot tartanék és váltig állítanám, hogy ez egy földön kívüli életforma. - Gyere vissza később, addig megpróbálom kideríteni, honnan lehet megszerezni a jelszót.

- Nekem el kell mennem. El tudnád küldeni emailen?

- Persze, nem probléma.

Egyetlen emailt kaptam csak Hegylakó főnökétől, amiben leírta a fiúknak, hogy vegyék át a paranoid gondolkodást és ne küldjenek jelszavakat levélben. Én ebből arra következtettem, hogy a jelszó megvan, csak nem akarják elküldeni nekem. Rendben. Írtam egy munkatársamnak, hogy akkor vegye át ő a jelszót. Válaszában leírta, hogy Hegylakó még mindig nem tudja, miről van szó.

Remek, aki létrehozta a hozzáférést, nem mondja meg a jelszót, aki megmondhatná, az meg nem tudja. Így húzódott át egy egyszerű probléma a jövő hétre.

Szólj hozzá!

Címkék: életmód rendszergazda

Használható táblázatok

2017.11.19. 01:11 Travis.CG

Most következő bejegyzésem nem kifejezetten bioinformatikai témájú, sokkal inkább abban próbál segíteni, hogyan készítsünk olyan táblázatokat, amelyeket egy bioinformatikus is tud használni. A cél, hogy ne abból álljon a közös munka, hogy készítünk egy táblázatot, majd továbbadva azt munkatársunknak, az szintén egy csomó munkát beleöljön szükségtelenül.

Az itt leírtakat inkább iránymutatónak szánom, mint konkrét szabályoknak, mert el tudok képzelni olyan eseteket, amelyek felülírhatják az itt vázoltakat. Sőt, olyan helyzet is akadt már munkám során, amikor többen együtt sem tudtuk eldönteni, melyik táblázat lenne nekünk megfelelő.

Az azonosító maradjon azonosító

A legtöbb laborban dolgozó ember eleve használ táblázatokat, jóllehet ennek nincsenek is tudatában. Ezek egy oszlopos táblázatok szoktak lenni, ahol egyetlen oszlop tartalmaz minden információt. Például: MutMale2007A, MutMale2007B, stb. Ismerős? Biztos vagyok benne. Személy szerint nem szeretem ezt a megoldást, de mint említettem, van létjogosultsága, ha valaki az eppendorf csöveket gyorsan átnézve akarja egy gélen megfuttatni csak a férfi mintákat. Hátránya, hogy nagyon sok információt kell minden egyes alkalommal leírni. Előnye, hogy nem kell egy lapot is böngészni, ha egy kezelést csak egy csoporton kell alkalmazni.

Személy szerint az egyszerű, minimális információval rendelkező azonosítókat kedvelem. Nem az azonosítónak kell hordoznia az összes információt. Az információ száma úgyis növekedni fog a kísérletek és eredmények számával. Arról nem is beszélve, hogy hibák mindig előfordulnak. Csak képzeljük el, ha kiderül, hogy az egyik csövet már az elején rosszul cimkéztük és nem férfiból származik. Közben már futott négy PCR, két különböző kezelés, stb. Mindegyik lépésből tettünk el kis csöveket a mélyhűtő leghátsó zugába. Átcimkézünk mindent, ami többnyire lehetetlen, vagy inkább csak megcsillagozzuk, hogy tudjuk, hogy igaz, hogy ez férfi mintának van jelölve, de valójába más. Ezzel el is indultunk a káosz felé vezető úton.

Egy személytelen és minimális információval rendelkező azonosító esetén ilyen gond nincs. A táblázatot kell csak korrigálni, ahol az azonosítót hozzárendeljük az információhoz.

A másik ok, ami miatt a minimalista azonosító hasznos lehet, ha vakon akarunk dolgozni. Mivel emberek vagyunk, a prekoncepció tudat alatt módosíthatja a mintákhoz való hozzáállásunkat. PhD hallgató koromban emlékszem, én is nagy figyelemmel mértem az enzimet (a drága enzimet, mint erre minden alkalommal felhívták a figyelmemet), szemben a vak mintánál, ahol csak deszt vizet kellett hozzáadni (nem baj, ha kicsit több megy bele, hiszen ez csak a vak). De a bioinformatikai munka elején is szívesen dolgozok vakon, segít, hogy objektívebben lássam az adatot.

Ha ennek ellenére is az információ dús azonosítók mellett döntünk, akkor legalább legyenek következetesek az elnevezések. Mit értek ezalatt? Ha a fenti példánál maradva MutMale2007A jelölést használunk, akkor ne váltsunk át 2007Female1-re félúton. Az információ tartalom ugyan az, de mikor számítógépre kerülnek az adatok, roppant nehéz lesz kódot írni rá. A helyzet akkor szokott bonyolódni, ha a nem várt események történnek. Ismét csak a fenti példa okán. Kiderül, hogy MutMale2007-ből van 50 darab. Először elfogynak az angol ABC betűi, majd azon kezdünk el gondolkodni, hogy a Lineáris B vagy a Klingon karakterek felhasználásával nevezzük el a többit. Mivel mindkettő nehéz, maradnak az emoji-k.

Egy oszlop, egy információ

Ha megvan az azonosító, a táblázat többi oszlopa plusz információkkal tölthető fel. Egy oszlop egy féle információt tartalmazzon. Ezek lehetnek kategorikus változók vagy folytonosak. A folytonos látszólag nem igényel magyarázatot, de itt is akadhatnak problémák. Például a mértékegység. Egy féle mértékegységet használjunk és bár fizika órán megkövetelik, hogy írjuk ki minden szám után (Öt micsoda? Krumpli? Ahogy tiszteletre méltó tanáraim mondták.), táblázatoknál ne tegyük, mert ez után a lépés után a cella megszűnik szám lenni és szöveg lesz. Arról nem is beszélve, milyen frusztráló, ha néha kis betűvel, néha nagy betűvel van kiírva a mértékegység. Néha space-el, néha anélkül, csak, hogy szép legyen az élet.

A kategórikus változóknál is igyekezzünk elkerülni a hasonló elírásokat. Személy szerint itt is az egész számokat részesítem előnybe a kiírt nevek helyett. Habár a kiírt nevek könnyebben értelmezhetőek, ha ábrázolunk valamit, legtöbbször hiba forrásai. Ha mégis a nevek mellett döntünk, csak alfanumerikus karaktereket használjunk és minden esetben ellenőrizzük, nem történet-e elgépelés.

Természetesen itt is van kivétel. Ha a táblázatot DESeq2-ben akarjuk használni csoport képzésre, akkor előfordulhat, hogy meg kell szegnünk ezt a szabályt. A DESeq2 ugyanis csak egy oszlopban található kategóriákat használ fel a differenciál expresszióhoz. Ha tehát több kategória (oszlop) alapján akarunk géneket keresni, kénytelenek leszünk összevonni azokat.

Ne legyen túl sok oszlop

Kinek mi a sok, igaz? A Sangerben volt egy csoportvezető, akinek 107 oszlopos táblázatot kellett generálni. De ő mindig csak az utolsó hármat nézte, ami azt jelezte, hogy a mutáció képes-e tumort indukálni. Ennek ellenére ha nem kapta meg a 107 oszlopot, akkor meg sem nézte az utolsó hármat. Ha a vizsgálatainkhoz fel kell használni egy információt, akkor annak oszlopként szerepelni kell a táblázatban. Ne vigyünk be olyan adatokat, amelyeket úgysem használunk. Ne vigyünk fel olyan oszlopokat, amelyek két vagy több korábbi oszlopból kinyert adat módosulatai. A fenti esetben az utolsó három oszlop a következő volt: tumor indukáló A szerző szerint, tumor indukáló B szerző szerint, tumor indukáló A vagy B szerző szerint.

Redundancia: gondoljuk át

A redundancia kérdése elég nehéz. Alapból a redundancia mentes táblázatokat szeretem, de egyes esetekben nem ilyen egyszerű a válasz. Vegyük például a mutációs táblázatokat. Minden sor egy mutáció, tehát egy kromoszóma pozíción adott nukleotid csere. A táblázatban jelölni akarjuk, hogy melyik génben található meg. Mivel elsajátítottuk az "egy oszlop egy információ" elvet, csak egy gént viszünk fel. De mi van az átfedő génekkel? Egy mutáció ilyenkor két gént ront el. Valamelyik szabályt meg kell szegni!

Másik eset: A Variant Effect Predictorral megnézzük, hogy a mutációnk milyen változást okoz aminosav szinten. A program a gén összes transzkriptjére meghatározza ezt. Tehát egy mutációhoz több hatás is tartozhat. Itt én a redundancia mellett döntöttem, még akkor is, ha ezzel olyan triviális információt vesztek, mint a mutációk száma.

Sokszor látni olyan táblázatokat, ahol ilyen esetben a táblázattól független elválasztó karakterrel felsorolják az összes lehetséges változatot. Ez jó megoldás, ha az oszopot csak szűrésre használjuk. Amennyiben statisztikai számításhoz kívánjuk felhasználni, rögtön egy sor problémába futunk.

Az egyik megoldás két táblázat használata, a másik, hogy feltételeket szabunk Például a VEP táblázat esetén úgy döntöttünk, a leghosszabb transzkriptet nézzük csak. Mint később kiderült, ez nagyon rossz döntés volt, mert a TP53 esetén, ami a rákos elváltozások döntő többségéért felelős, egyetlen aminosav cserét sem találtunk. Mert a leghosszabb transzkript nem kódol fehérjét! Remélem ez a kis példa is mutatja, hogy egy hibásan felépített táblázat mennyi problémát okozhat.

Hiányzó értékek, kerüljük el

Természetesen nem tudjuk elkerülni őket. Mindig van hiányzó adat. A hiányzó adatnál már csak a bizonytalan adat a rosszabb. Egy szám és mögötte egy kérdőjel. Ha hiányzó érték van, az egyérteműen látszódjon. Ne úgy, hogy pirossal kiszínezzük a cellát! Folytonos változóknál az NA tökéletes, még az R is megérti. A 0 csak akkor jó, ha 0 nem lehet egyébként a táblázatban, tehát nem keverhetjük össze értékkel.

Amikor egy táblázat nem elég

Ha a komplexitás nagyon megnő, felesleges egy táblázatba préselni mindent. Inkább legyen több, kisebb táblázat, mint egy monolitikus, de használhatatlan. Ha a táblázatok száma kezd nagyon megszaporodni, inkább használjunk adatbázisokat. Felépítésük időigényes, de után kinyerhetjük az adatokat mindenki ízlése szerint. Természetesen egy adatbázist elfogadtatni egy Excel központú világban nagyon nehéz. A legjobb, ha nem is borzoljuk vele mások idegeit, csak használjuk. Ha pedig sürgősen szüksége van az adatok más formában való prezentálására, csak írjunk egy lekérdezést 10 másodperc alatt.

Szólj hozzá!

Címkék: bioinformatika

Nem a tiéd

2017.11.13. 00:21 Travis.CG

Technológiai trendek terén mindig is rosszul döntöttem, illetve van egyfajta vonzódásom a vesztes megoldások iránt. Például annak idején szívbaj nélkül vettem egy Efika 5200b-t, pedig mindenki mondta, hogy kevés a memória benne, vannak jobb alternatívák, ha MorphOS-t akarok használni. De a microA1-t is azután szereztem, hogy az AmigaOS4 felhasználók kezdtek áttérni MorphOS-re.

Ezeket a döntéseket nem szoktam megbánni, bár sokkal több akadályt gördítek magam elé, mintha sodródnék az árral. Angliában is Windows telefont vettem, pedig a szakmai fórumok sulykolták, hogy milyen kevés a piaci részesedés, mennyire nincs szoftver támogatottság, stb.

Úgy gondoltam érdekes lesz használni. Nem is bántam meg. A Skype például remekül működött. Amíg az Androidos táblagépen a hívásokat nem kaptam meg, ha a gép alvó állapotban volt, addig a telefon vígan felébredt. Remek volt, hogy egy eszközzel elértem mindent. Természetesen Androidra is volt valami extra szoftver, amit telepíthettem volna, de nem akartam. Miért kell egy program használatához kettőt telepíteni? (Azóta ezt frissítették, most már felébred a tablet is.)

De ennek most vége. Egy hónapja nem tudtam bejelentkezni a Skype-ba a telefonon keresztül. A program a hálózati beállításokra panaszkodott, de azokkal nem lehetett gond, mert más alkalmazások remekül működtek. A netet böngészve akadtam arra a bejegyzésre, hogy a Microsoft letiltja a Skype használatát a Windows 8.1 telefonokra. (Olyan lassan írtam ezt a bejegyzést, hogy időközben a Microsoft teljesen kinyírta a mobilos részlegét.)

Mi van? Állítólag küldtek róla e-mail értesítőt, de miután a Microsoft saját levelező rendszere képtelen kiszűrni a Microsoft nevében küldött spameket, én minden ilyen levelet automatikusan törlök. Egy cég eldöntötte, hogy én mire használhatom azt az eszközt, amiért fizettem.

Ez a húzás olyan, mintha egy férfi azon erőlködne, hogy tökön rúgja magát. Próbálkozik, próbálkozik, de csak nem akar sikerülni. Aztán a megfeszített munka végül meghozza a gyümölcsét és akkor rájön az illető, hogy ez nem volt jó ötlet. De akkor már késő. A fájdalom valós és a pöttöm kis szerv is szépen lilul.

Mindezt az teszi lehetővé, hogy az eszközök nem képezik a tulajdonunkat. A felhő alapú megoldásokkal minden kikerül az irányításunk alól és ha az üzleti érdek úgy diktálja, akkor egy tollvonással eldönthető, hogy a felhasználók mit kapjanak.

Az operációs rendszerek leszedhetnek telepített programokat a gépemről, ha azt nem megfelelőnek találják. A játék kiadói lekapcsolhatják az online szervereket, ha nincs elég bevételük.

Nem teszünk más, mint lízingeljük az eszközöket. Egyre több olyan program lesz, ami havidíjas. Már azt is egyre nehezebb elérni, hogy a megvásárolt program látszólag a birtokunkba kerüljön.

Lehet említeni a szabadság jogokat, ahogy Stallman teszi, hogy csak szabad szoftvert/eszközt használjunk. Sírhatunk a retro életérzés elvesztéséért. De azt is tehetjük, hogy magasról teszünk az egész üzleti érdekek által kezdeményezett zsarolásra és a saját kezünkbe vesszük az irányítást. Rootolunk, visszafejtünk, fejlesztünk. A hardver nálunk van, kódot tud futtatni.

Nyilván sokkal nehezebb, mint átváltani egy másik platformra, de még mindig úgy gondolom, a nehezebb út nem feltétlenül rosszabb. Ráadásul a végeredmény tényleg az enyém lesz. Paradox módon úgy kerülhet valami a teljesen a tulajdonunkba, ha az őt létrehozó cég leveszi róla a kezét.

 

Szólj hozzá!

Címkék: filozofálás cloud computing

Rambo-szindróma

2017.10.30. 22:37 Travis.CG

Rambo a katonai kiképzés csúcsa. Szinonímája a legelitebb csapásmérő erőnek. Nekem mégis a legemlékezetesebb jelenetem az első rész végén hallható monológja, ahol elpanaszolja, hogy hiába a szuper kiképzés, békeidőben még parkoló fiú sem lehet. (Amikor a feleségem felhánytorgatja, hogy nem szeretem az érzelmes, romantikus filmeket, ezzel szoktam rácáfolni.)

Ez a Rambo-szindróma. Tünetei: Az ember azt kérdezi, miért nem csinálhatom X dolgot, ha korábban csinálhattam? Ha valamit jobban is el lehet végezni, miért kell rosszul csinálni? Motiválatlanság a kapott feladat elvégzésére, mert nincsenek megfelelő feltételek. Szélsőséges esetben dühroham a korlátolt rendszer által generált akadályok láttán.

A Rambo-szindróma könnyen összekeverhető a lusta-arrogáns magatartással. Tünetei hasonlóak, csak a lusta-arrogánsokat könnyen leleplezhetjük, ha megnézzük múltbeli teljesítményüket. Az ugyanis közel nulla. A fennálló rendszer elleni gyűlöletük abból adódik, hogy dolgozniuk kellene, de mivel lusták, ezt nem akarják. Lustaságukat arroganciával leplezik és ez a két tulajdonság egyenesen aránylik.

Az igazi Rambó-szindrómás viszont dolgozni akar. Érdekes szekvenálási projektekben akar részt venni, miután visszatért Svédországból. Esetleg Lendület pályázatot beadni, hogy bokorugróból csoportvezető lehessen. De az is lehet, hogy csak egy szuperszámítógép hozzáférést szeretne.

Kezelése még kísérleti fázisban van. Először tüneti kezelést érdemes alkalmazni, hogy megakadályozzuk a "minden pocsék" mentalitás kialakulását. Miután a páciens stabilizálódott, megkezdhetjük a folyamat visszafordítását vicces motivációs videók megtekintésével. A lelkileg megerősödött emberekben tudatosítani kell, hogy egy új élethelyzetben vannak és több energiát kell befektetniük céljaik elérésében, mint korábban.

Esettanulmányok említik, hogy a felépülés nem megy zökkenő mentesen. Gyakoriak a regressziók, aminek hatásai csökkenthetőek, ha a pácienst emlékeztetjük korábbi sikereire.

De talán a legfontosabb, hogy érezzék. Nincsenek egyedül. A problémák talán nem ugyan olyan horderejűek mindenki számára, de az érzések hasonlóak.

Szólj hozzá!

Címkék: filozofálás

Majdnem mindent az RNA-seq-ről (7. rész)

2017.10.27. 14:59 Travis.CG

Az RNA-seq analízis eddigi lépései elég mechanisztikusak voltak. Igazából némi számítógépes ismereten túl nem igényeltek komolyabb tudást. A most következő lépésekhez viszont szükség van a biológiai tanulmányokra és a kísérlet viszonylag alapos ismeretét.

A génlista hasznos, de önmagában nem ad semmi támpontot arra vonatkozóan, milyen biológiai folyamatok változtak meg. Fel kell tennünk a kérdést: miért ezt a génlistát kaptuk eredményül és miért nem egy másikat?

Amikor kezelésnek teszünk ki egy biológiai rendszert, bizonyos anyagcsere útvonalak és jelátviteli rendszerek aktiválódnak. Ezeknek a fehérjék (és rajtuk keresztül a gének) csupán építő kövei.

A nem szakmabeli olvasóimnak - amennyiben vannak - had éljek egy hasonlattal. Képzeljük el, hogy egy építményt felrobbantunk és a törmelékből kell megmondanunk, milyen épület állt eredetileg. Találunk sok szalmát, vályogot. Gondolhatjuk, hogy egy parasztkunyhó volt, de ennyi bizonyíték alapján akár egy istálló is lehetett. A downstream analízisben is előfordulhatnak hasonló bizonytalanságok.

Miért? Először is, nem ismerjük minden gén minden funkcióját. Nem ismerjük az összes anyagcsere útvonalat és az ismert útvonalak összes tagját sem. Az annotációkat folyamatosan fejlesztik, de ennek a fejlődésnek az üteme nem egyenletes minden adatbázisban, amit a munkánk során használunk. Akiben ezek alapján felmerül, hogy az így kapott eredmények nem elég objektívek, az jó nyomon jár. Itt jön elő a kísérletes validáció fontossága.

Ennek ellenére szerintem ez a legizgalmasabb lépés, mert az így kapott eredmények megvitatása sokkal közelebb áll a tudományhoz, mint a korábbiak. Hiszen a tudomány lényege nem a pipettázás, PCR futtatás vagy a szekvenciák illesztése, hanem válaszadás bizonyos kérdésekre.

Annotációk

Ontológiák

Az ontológiák közös jellemzője, hogy a kategóriákat mesterségesen egy hierarchikus rendszerbe tömöríti, majd a minden kategóriába elhelyezi a géneket. Mesterséges mivolta miatt nem mentes a hibáktól, az elnevezések nyakatekertek, de jó kezdő pont, hogy egy áttekintő képet kapjunk az eredményekről. Többféle ontológia létezik. A leghíresebb a GO, de létezik már ontológiája betegségeknek, rákos géneknek is.

Protein interakciók

Habár az egyetemi oktatásban azt a képet sugalmazzák, hogy a fehérjék amolyan magányos vadnyugati bosszúállók, azért ne feledkezzünk meg róla, hogy ezeknek a figuráknak is van lova, hatlövetűje és kalapja, amelyek nélkül nem tudják beteljesíteni végzetüket (és a rosszfiúkét sem). Ugyan így, a fehérjék is komplexekbe tömörülnek. Ezeket a kapcsolatokat is megtaláljuk olyan adatbázisokban, mint amilyen az IntAct.

Anyagcsere útvonalat

A folyamatok sorrendiségét és a résztvevő molekulák kapcsolatának jellegét az anyagcsere adatbázisok írják le. A leghíresebb talán a KEGG, de a Reactome is sok információt tartalmaz.

Online eszközök

Nem kell feltétlenül több száz soros szkripteket írnunk, ha meg akarjuk ismerni egy génlista titkait. Több weboldal is létezik, ahol csak annyi a dolgunk, hogy feltöltjük az eredményül kapott géneket és megláthatjuk a feldúsuló funkciókat.

Panther

Ez az adatbázis igazi veterán, de folyamatos fejlesztés alatt áll. Többféle gén azonosítóval is megbirkózik, a GO mellett gén családokra is kereshetünk, illetve anyagcsere utakra. Használata rendkívül egyszerű, de publikáció kész ábrákat ne várjunk tőle.

Reactome

Az adatbázis limitált vizsgálati eszközöket is rendelkezésünkre bocsát. Humán központú, ami annyit jelent, hogy a más fajból származó génlisták humán megfelelőjét használja, amit azután emberi anyagcsere utakra térképez. Értelem szerűen, ha rendszertanilag messzebb álló élőlényeket vizsgálunk, több lesz a hibás eredmény.

David

A microarray időkből visszamaradt mindenes eszköz, amit érdemes nagy óvatossággal kezelni. 2010 és 2016 között nem jött ki új verzió belőle. Előszeretettel használják csoportvezetők, ha valamit nagyon gyorsan akarnak megtudni és az egyetlen elérhető bioinformatikus épp elment aludni, nyaralni.

Enrichr

Ezt az eszközt nem használtam rendszeresen, csak egy Coursera kurzus részeként ismerkedtem meg vele. A többi eszközhöz képes puritánabb.

String

Ez az eszköz tavaly újult meg, így rajta lehet jelenlegi listánkon. Érdekessége, hogy rengeteg automatikus megoldás próbálja kitalálni, mit is akar a felhasználó, így viszonylag kevés képzés után is használható. Másik pozitív tulajdonsága, hogy a fehérjék kapcsolatának jellege állítható a merev, kísérletekkel igazolt kapcsolattól a teljesen hipotetikus szövegbányászattal talált asszociációig. Az eredmények akár XML-ben is kimenthetőek, hogy Cytoscape-pel tovább formázhassuk.

Klikkelős programok

A jól ismert programok, mint amilyen a Geneious, Golden Helix, CLC Genomics Workbencs mind képesek valamilyen szinten effajta elemzésekre, de mivel egyiket sem használtam személyesen, róluk nem írok.

Cytoscape

Ez a program a hálózati kapcsolatok fenegyereke. Beépített moduljainak köszönhetően képes génlisták elemzésére, de ami talán ennél is fontosabb, fejlett vizualizációs módszerekkel az eredményeket publikációnkba illeszthetjük. Ha van is probléma a programmal, az is inkább a hanyagul megírt bővítményeknek köszönhető, nem a főprogramnak.

FunRich

Ezt még egy kutató gépén láttam, akkor próbáltam ki. Furcsasága, hogy csak és kizárólag Windows gépeken működik (.Net alapú). Egy éve nem frissítették, így az alapját képző adatbázisok megbízhatósága kérdéses. Viszont alapbeállításokkal is képes szép ábrákat produkálni, kezelése egyszerű.

Bioconductor

Természetesen nem lehet teljes az eszközök felsorolása, ha nem térnénk ki az R-ben használható csomagokra.

gage

A gage csomag elsősorban KEGG adatok elemzésére lett kifejlesztve. Bemenete a normalizált expressziós táblázat és az összehasonlítandó csoportok. Eredménye a felülreprezentált anyagcsere utak listája, amit a pathview csomaggal meg is jeleníthetünk. Hátránya, hogy csak NCBI azonosítókkal működik.

ReactomePA

Ha már úgyis az anyagcsere útján járunk, meg kell említeni a ReactomePA-t is. Ez és a következő három csomag ugyan annak az embernek köszönhető, ezért használatuk mutat némi hasonlóságot. Az eredmények hasonló módon vizualizálhatóak. A csomag kifejezetten a Reactome weboldal információit használja, csupán R-en keresztül.

DOSE

Mint említettem, nem csak géneknek van ontológiája. A DOSE csomaggal betegségekhez asszociált géncsoportokat mutathatunk ki.

clusterProfiler

Ez a korona a programhármas tetején. Nem csak KEGG és GO feldúsulásokat kereshetünk, de kapunk hasznos eszközt a gén azonosítók megfeleltetéséhez, interfészt a DAVID webszolgáltatáshoz is és kiterjedt vizualizációs eszközöket az eredmények megjelenítéséhez. Ezt a csomagot nagyon szeretem. Hátránya, hogy a képi eredményeknek nincs jelmagyarázata, így nehéz megállapítani, hogy melyik szín milyen p-értéknek felel meg.

Összefoglalás

Az itt bemutatott eszközök egy kis biológiát csempésznek az amúgy unalmas génlistákba. De az így kapott eredményeket értelmezni is kell, amiben egyik eszköz sem fog segíteni. El kell helyezni azokat a kísérlet kontextusába, hogy végül támogassák (vagy éppenséggel cáfolják) hipotézisünket.

Szólj hozzá!

Címkék: bioinformatika

Vissza a gyökerekhez

2017.10.15. 00:44 Travis.CG

Emlékszem, mikor először tanítottak nekem bioinformatikát, a feldolgozandó szekvenciák mérete kisebb volt, mint egy Wordben megírt kérvény. Akkoriban még olyan programok is voltak (igaz, egyre csökkenő relevanciával), amelyek a szekvenciák szerkesztését próbálták meg segíteni. Igen, egy szövegszerkesztő programot kell elképzelni, amivel ATGC-t lehet beírni. Esetleg N-t.

Ebben az időben olyan programokat is használtam, amelyek különböző módon alakítgatták a szekvenciákat. Megfordították, fehérje szekvenciává alakították vagy több szekvenciában közös részeket kerestek. Ma már senki nem használ ilyesmit.

Még a Sangerben beszélgettem egy számítógépes biológussal. Olyan emberrel, aki formális képzésen sajátította el a szakmát, nem hobbiból ragadt rá valami, mint énrám. Semmit nem tudott a ClustalW-ről, Emboss programcsomagról és elmondása alapján soha nem futtatott Blastot. Az idősebbek ilyenkor azt a téves következtetést vonják le, hogy a mai fiatalok nem tudnak semmit. De igazából csak arról van szó, hogy a mi fejünk van tele idejétmúlt módszerekkel, amire a fiataloknak semmi szükségük.

De néha, ha a telihold földöntúli fénnyel világít és az árnyék világ határa eléri a mi világunkat, csak a régi tudás birtokosai vehetik fel a harcot a démonok ellen. Vagy amikor a földön kívüli inváziót csak egy múzeumból kölcsönvett csatahajóval lehet megállítani, amit szanatóriumból verbuvált legénység üzemeltet.

Pontosan ez történt ebben a cikkben. Mintha csak a kilencvenes éveket idéznénk. Összegyűjtöttük az elérhető búza szekvenciákat a GenBankből, ahol nem volt fehérje szekvencia, ott mi magunk fordítottuk le azokat. Az első szerző kézzel végignyálazta és kijavította a hibásan felvitt szekvencia leírásokat. Többszörös illesztéseket futtattunk, majd a közös részekből meghatároztuk azokat a szekvenciákat, amelyekre érdemes PCR-t tervezni.

Jópofa projekt volt, de nem valószínű, hogy az elkövetkező 10 évben újra szükségem lenne a módszerekben alkalmazott programokra.

Szólj hozzá!

Címkék: publikáció

Első nap

2017.10.08. 22:38 Travis.CG

Tyler korán kelt. Ma fog kezdeni új munkhelyén és az előtte álló másfél óra utazás megköveteli, hogy korán elhagyja az ágyat. Sötétben tapogatta ki ruháit és magában megfogadta, hogy legközelebb már este kikészít mindent. Fogadalmát meg is erősítette, mint a világosba kiérve észrevette, hogy egy narancssárga pólót vett fel, amit annyira utált, hogy csak festéshez, WC-pucoláshoz és más alantas munkákhoz vett fel, abban reménykedve, hogy talán végérvényesen tönkre megy. De a póló túlélt mindent. Már öt éve.

Nem volt sok idő, indulni kellett. A póló maradt és rohant a vonatra. Az épületet gyorsan megtalálta. Ötszintes modern építmény kártyás beléptető rendszerrel, ami mellett érthetetlen okokból egy lengőkapu volt. Tyler gondolkodás nélkül nekirontott, de az éber portás megállította.

- Maga hova megy?

- A munkahelyemre - válaszolta ártatlan képpel Tyler.

- Nincs kártyája?

- Ez az első napom.

- Hol dolgozik?

- Tumor Biomarker Csoport - de mikor kimondta, már tudta, hogy ismét eltévesztette a nevet. A portás lassan bólintott, mintha fejben számolná végig az épületben megtalálható kutatócsoportokat és beengedte Tylert. A férfi első útja új főnökéhez vezetett.

- Nekem most egy telekonferenciám lesz - kezdte a csoport vezetője - addig ülj le ehhez a géphez. Utána körbevezetlek. A fiúk - mutatott a két húszas éveiben járó PhD hallgatóra - majd segítenek.

Tyler azonnal a gép erőforrásait kezdte tanulmányozni. Négy mag, 8Gb memória. Egy jobb mobiltelefon paraméterei - gondolta magában keserűen. Reménykedve megkérdezte a PhD hallgatókat, van-e valami szerverük.

- Van, a közeli egyetemen van egy igen komoly gép. Huszonnégy mag és 32Gb memória!

Ez már talán jó lesz nekem, de akkor ti mit használtok? - gondolta Tyler. Időközben a telefonkonferencia is véget ért.

- Jó lesz az új gép? - kérdezte főnöke.

- Attól függ, mire. Vékony kliensnek megteszi.

Egy nagyon vékony kliensnek - tette hozzá magában.

- Nem kaphatnék valami komolyabbat? - kérdezte reménykedve Tyler.

- Mindent meg lehet oldani. Készülj fel, hogy közbeszerzésen keresztül megy. Három hétig fognak ülni rajta, nem csinálnak semmit. Utána megvizsgálják az igényedet, hogy ki lehet-e váltani hasonló termékkel, ami megvan a közbeszerzési listában. Ha nincs meg, új papírt kell kitölteni, újabb három hetet ülnek rajta...

- Látom, jó lesz nekem ez a gép is - törődött bele Tyler.

- Az a helyzet, hogy egyszerűbben veszek egy aranytömböt, mert azt el tudom számolni laboratóriumi vegyszernek.

- Akkor vegyél egy aranytömböt, adjuk el és vegyünk belőle számítógépet.

Főnöke csak mosolygott. Átmentek a központi folyosón, ami az északi és a déli tömböt kötötte össze.

- Bemutatlak Zsuzsának. Ha bármi problémád van, hozzá menj. Egy emelettel felettünk 70 adminisztrátor van, de nem dolgoznak semmit. Egyedül Zsuzsa csinál valamit. Csak rendszergazdából öt van. Nem is értem, miért. Van egy kutató csoportom a klinikán is. Ott kétszer annyi ember van, mint itt, de egyetlen rendszergazda meg tudja oldani az összes feladatot. Fél állásban. Itt is vagyunk. Zsuzsa már előkészítette a papírokat. Itt is hagylak vele.

Tyler nem emlékezett rá, hogy korábban ennyi papírt kellett volna kitöltenie. Nyilatkozott, hogy a papírjait lefénymásolhatják, hozzájárult, hogy az adatait az adminisztráción megismerhetik, kijelentette, hogy nem pályakezdő, nincs egyéb jövedelme. Igen, ott a 2015-öt át kell húzni és tollal fölé írni, hogy 2017. Sajnos nem kapnak új nyomtatványt. Van gyermeke? Akkor az adókedvezményes papírt is ki kell tölteni. Nem, ennyi adat nem elég, kell a gyerek TAJ száma is. Igaz, hogy nincs a formanyomtatványon rublika, a papír határa kell írni. Jaj, fekete tollal kitöltött papírt nem fogadnak el, mert az olyan, mintha fénymásolták volna. Igaz, mindenképp lefénymásolják, de akkor sem szabad feketével kitölteni. A gyerek után pótszabadság is jár, arra egy másik nyomtatvány van. Kellene az érettségi bizonyítvány is. Látom, hogy itt a egyetemi diplomája és a doktori oklevele, de akkor is kell az érettségi. Magánnyugdíj pénztári tag? Kell az igazolás, hogy nem lépett vissza az állami rendszerbe és a pénztárral kötött szerződés.

- Most szólok: az óvodai ballagáson kapott pogácsám sincs meg - jegyezte meg Tyler a végén.

Átment a tűzvédelmi oktatásra. Az oktató egy lakástűz videóval indított. A végén megkérdezte:

- Van maguknál otthon tűzoltó készülék? - az emberek a fejüket rázták.

- Miért nincs? Havonta 22 tűzeset történik, amelyek megelőzhetőek lennének egy 6 kg töltetű poroltó készülékkel!

Ezután potenciális veszélyforrásokat mutatott. Áram alatt álló USB töltő, ami nem töltött semmit, sérült szigetelésű vezeték, virágcserép a tűzoltó szekrény tetején. Az oktató minden egyes képnél hosszan ecsetelte, milyen hülyék ezek az emberek, pedig egyetemet végeztek.

A belépő kártya igénylés sem ment zökkenő mentesen. Az üzemeltetés vezetője elküldte az egyik beosztottjához, aki egyszer sem volt a helyén, pedig Tyler négyszer is kereste aznap.

- Zsóka hihetetlenül arrogáns. Nekem még egyetlen e-mailemre sem válaszolt. Azt hiszi a kutatók vannak érte - kommentálta az esetet Tyler főnöke - pedig ő van miértünk. Mégis hogy képzeli ezt? Ha én lennék a főigazgató, az első helyen rúgnám ki.

Tyler azért még kétszer visszament aznap, de négykor közölték vele, hogy Zsóka elment és már nem jön vissza. Ezután úgy döntött, letörli a Windows gépéről és Linuxot rak rá. Megkérdezte, van-e pendrive valakinél.

- Most pont nincs, mert három hónapja adtuk le a rendelést és még nem érkezett meg. De a sajátomta kölcsön tudom adni - mondta az egyik PhD hallgató.

Tyler csak sóhajtott egyet és nekilátott dolgozni.

1 komment

Címkék: irodalom