HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • Kalle: @Travis.CG: Igazság szerint bioinformatikában nem is nagyon tudnék érvet mondani, hogy miért kéne ... (2019.06.28. 23:45) CentOS, nagyoknak
  • sdani: @Travis.CG: Nohát, nem is tudtam, hogy ilyen van... bár ahogy elnézem ezek a komponensek fizetősek... (2018.11.01. 10:14) Rossz beidegződések a bionformatikában
  • Csenge Tarnói: Ez érdekes. Most csinálok egy meta-analízist, életemben először, úgyhogy az én tudásom is felszíne... (2018.10.01. 21:39) Ez már nekem sok
  • robertherczeg: Nekem a kedvenc az volt, hogy: "Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, m... (2018.09.04. 07:47) Ezért utálom a Wilcoxon-tesztet
  • Travis.CG: ÉÉÉÉÉs megjelent! (2018.08.24. 23:31) Nehéz szülés 2

BioIT World 3. rész

2012.10.18. 13:42 Travis.CG

Kicsit késve itt a harmadik nap összefoglalója:

A harmadik nap a Tavaxy megismerésével kezdődött. Ha azt mondom, hogy ez is egy munkafolyamat tervező alkalmazás, az olvasónak talán beugranak ilyen nevek, mint Taverna, vagy Galaxy. Ez a két program előnyeit egyesítő harmadik program. Az egyikkel, vagy másikkal elkészített folyamtokat könnyedén importálni lehet, de a felhaszálói felülete inkább a Galaxyra hajaz. Emboss, SAMTools vagy FastX már integrálva van. Lehet használni Amazon EBS instance-k kezelésére is, tehát teljesen felhő alapú, de ha csak egy nagy teljesítményű számítógépünk van, azon is elfut. Ingyenes, opensource.

Meghallgattam az Aspera előadását is, mert bár lépten nyomon az ő nevükbe botlom, nem sokat tudok róluk. Most megtudtam. Elsősorban nagy mennyiségű adat mozgatására specializálódtak. Manapság a TCP alapú hálózati adat átvitel dominál, de ez eldobja az adatcsomagok nagy részét, a sávszélessggel rosszul skálázódik, az áthidalt távolsággal arányosan növekszik a késleltetés és még megannyi probléma van vele. Szerencsére itt van az Aspera, ami biztonságos, gyors, szép, okos. FasP alapon kommunikál, ami valós időben, a fájl típusának megfelelő átviteli stratégiát választ. Ezt egy összehasonlító táblázaton is megcsodálhattam. Az FTP és az Aspera megoldásánál az egyes fájlok letöltési idejét tüntették fel, de 1 GB-nál nagyobb fájlok esetén az "impractical" szó szerepelt az idők helyett. A rendszer gyorsaságáról élő demót is láthattunk. Az előadó belépett a hotel vezeték nélküli hálózatán keresztül egy amerikai szerverre, majd CloudBerryvel elkezdett feltölteni Amazon S3-ra egy 5GB-os állományt. Kb. 5%-nál leállította, pedig ki sem írta, mikor várható a feltöltés vége. Elindította az Asperát, ami egy perc körüli idő alatt feltöltötte a cuccot. Feltöltés közben visszaváltott a prezentációra, ezért a végét nem láthattuk. De 20%-ig azt tapasztaltam, hogy gondolkodik, majd hirtelen megugrik a feltöltés. Biztos ez volt a valós idejű stratégia váltás. Azért remélem, nem egy erősen repetitív állománnyal próbáltak meg kábítani minket.

Meghallgathattunk egy előadást a New York Genomics Center létrejöttéről is. Ez egy nagyon filantróp, nagyon új, nagyon szép intézmény. Sok okos filantróp kutatóval, akik kapcsolatban vannak az összes New York területén található intézménnyel. Minden házon belül van. A szekvenátorok, a nedves és száraz biológusok, és együtt egy vidám, filantróp tudományos közösséget alkotnak. A közelben van a rendőrség, és a kevésbé filantróp Homeland Security, akik vigyázzák a sok csillogó szemű tehetség békességét. Levetítettek egy videót is nekünk, ami nagyon... filantróp volt.

Ezzel szöges ellentétben a következő előadó magát a szekvenálást outsource-olta. A szekvenáló berendezések nagyjából két évente jelennek meg a piacon. A vegyszerek hozzájuk drágák. Gyors a berendezések amortizációja, ezért úgy döntött, hogy csak a minta izolálását és a preparálást végzik el, a munka azon részét, ahol nincs helye a protokolon belül a mozgástérnek, a szekvenáló központokra bízzák. Az előkészítés ugyanis egy olyan lépés, ami a kísérletek szempontjából a legfontosabb. A szekvenáló központok a legritkább esetben vannak felkészülve egyedi igényekre, még ha a brossúrákban azt is írják. (Ezt én is meg tudom erősíteni) A felhasznált protokolokat csak 15 email után tudják elmondani, de így is olyan hibaaránnyal dolgoznak, hogy két különböző cégnek elküldték ugyan azt a mintát és két eltérő eredményt kaptak. A visszaadott FASTQ is szekvenáló központ függő. Valahol a nyers szekvenciákat adják vissza, de valahol már a vektor szekvenciákat levágják, ami lehetetlenné teszi, hogy például a vektor kontaminációt megállapítsák.

Kedden a kávészünetben már beszéltem az előadóval. Azt mondta, a bioinformatikusoknak jobban meg kellene ismerniük az előkészítési lépéseket, mert jobb következtetéseket tudnának levonni az elemzéseikhez. Egyetértettem vele. Ezt a nehéz módon tanultam meg. Nem egyszer kaptunk mi is olyan adatokat, amiket valami miatt nem tudtunk rendesen illeszteni. A nyomozások végén legtöbbször kiderült, hogy az előkészítési lépésnél szúrtak el valamit. Ha több ismeretem lett volna a preparációról, akkor hamarabb kiszúrhattam volna a hibát.

Az ARB és a SILVA volt a témájá a szekció utolsó előadásának. Ez a két eszköz az rRNS-ek elemzésére szolgál. A SILVA az adatbázis, az ARB pedig egy alkalmazás. Az előadó PhD hallgató kora óta fejleszti, de még nem unja. A minőségbiztosítás a legnagyobb probléma, ugyanis vektor szekvenciák, homopolimer hibák és a szekvencia hasonlóságok miatt nehéz egyértelműen beazonosítani a szekvenciákat. Az adatbázis rekordjait ezért manuálisan is ellenőrzik a szakirodalom alapján. Az ARB alkalmazáshoz bővítményekkel további funkciókat lehet hozzáadni, de ezt eddig senki nem tette meg. A szekvenciák egy saját belső adatbázisban kapnak helyet, ahol referencia alapú tömörítés segítségével csökkentik annak tárhely szükségletét.

Délután kicsit késve érkeztem a rendszerbiológia előadásra, mert én voltam egyedül a kiállítóhelyünkön. A többiek valami drága étterembe akartak menni, és nem értek vissza több, mint három órán keresztül. Legalább egy kicsit értékesítősdit játszhattam. A mondanivaló nagy részét így is megértettem. Míg korábban a bioinformatikai alkalmazások elszigetelt, egyedi problémákat oldottak meg, addig manapság az alkalmazások bonyolultsága megnövekedett. Összetett algoritmusokat használnak, amelyek igyekeznek kapcsolati hálókat feltárni. Ennek egyik irányzata a rendszerbiológia. A rendszerbiológia gráfokkal dolgozik. A feldolgozáshoz elengedhetetlenek a nagyteljesítményű gépek. Ezután különböző példákat láthattunk, amelyeknek közös pontja volt, hogy a problémák felderítéséhez holisztikus szemléletre volt szükség.

Összefoglalva elmondhatom, hogy a BioIT World viszonylag kicsi konferencia volt. Megközelítőleg 150 ember volt jelen. Az előadások számomra hasznosak voltak. A pénzhajhász szemlélet viszont egyértelműen érezhető volt. Ebédet nem biztosítottak a konferencia látogatóinak. Még a programfüzetbe is beírták: Enjoy you own lunch. Ezen nálunk többen kiakadtak, én sejtettem, hogy valami ilyesmi lesz. (Bár arra számítottam, hogy lesz ebéd, csak minket nem fizetnek be rá) Fel voltam szerelkezve 3 napra elegendő szendvicskészlettel. Mondjuk kellett is, mert a marketinges az első nap közölte velünk (ő már két napja ott volt), hogy amit ebédre kaptunk pénzt, azt elitta.

A konferencia az Imperial Hotelben volt. Impozáns hely, de egyetlen kuka volt csak a Quantum kiállítóhelyén. Mint megtudtam az egyik kiállítótól, azért, mert azért is fizetni kellett. Internet szintén nem volt, az is pénzdíjas volt. Ezen az IBM-es kollégák is kiakadtak. Biztos nem tudták elérni a 7,2TB memóriával rendelkező gépüket.

Szólj hozzá!

Címkék: cloud computing bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr144846685

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.