HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Organoid big data, avagy trendi vagyok, bébi

2016.06.04. 23:07 Travis.CG

Most már tényleg le kellene állni a projekt harácsolásról. Az egyik PhD hallgató megkeresett, hogy van 105 RNA-seq adata organoidokból.

Az organoidok olyan ős sejtekből differenciáltatott szövet kezdemények, melyek hordozzák a végső szövet lényeges tulajdonságait. Miért érdekes ez? Amíg egy embert nem lehet karcinogénekkel kezelni, hogy lássuk, milyen rák fejlődik ki belőle, nem lehet genetikailag módosítani, hogy jobban megértsük a gének működését, addig egy organoidra nem vonatkoznak ilyen szigorú etikai előírások.

Bár azért érdemes megjegyezni, hogy nemrég engedélyeztek egy embrió genetikai módosítására vonatkozó kísérletet.

Mivel az adatok nagy része klónokból származik, lesz lehetőségem arra is, hogy összehasonlítsam, mennyire konzekvensek az RNA-seq adatok és ezzel talán jobban megérthetem, az eltérő feldolgozási módszerek mennyire adnak konzekvens eredményeket.

Talán kicsit túloztam a címmel, mert ez még nem igazi nagy adat, de már itt is érezhető, hogy más módon kell megírni a szkripteket, mint ahogy korábban tettem. Előszeretettel használom ugyanis a hasheket. De míg régebben két táblázat összehasonlításánál minden gond nélkül használhattam hash-be ágyazott hash-eket, ahol az első kulcs a gén azonosítója (vagy ha így jobban tetszik, a táblázat sora), a második pedig a minta azonosítója (oszlop név), addig most ezekről le kell mondanom. A fent említett adatstruktúrának ugyanis akkora lett a memória igény, hogy a legizmosabb gépen sem fért el.

Természetesen itt még könnyen megoldottam a problémát, mert a második hash-t kicseréltem közönséges tömbre, hiszen az oszlopok sorrendje nem változik. Ez az egyszerű változtatás elég volt, hogy a szkript már lefusson.

Egy másik egyszerű változtatás, hogy amennyiben több táblázattal dolgozom, amelyek ugyan abból az adatszettből származnak, akkor  a táblázatok sorait és oszlopait szinkronizálom. Így már nem kell megjegyezni, hogy a táblázat cellái hogyan feleltethetőek meg egymásnak. Korábban ez sem volt érdekes, a számítógépek megbírkóztak mindennel, még akkor is, ha nem volt optimálisan megírva a szkript.

Talán meg kellene győzni a hallgatót, hogy egy Crisp/Cas rendszerrel módosított organoidot szekvenáljon (szigorúan egy sejteset), amit én GPU alapú Hadoop klaszteren dolgoznék fel, miután noSQL-be töltöttem mindent. Ekkor igazán trendi lennék. És ha mindez a felhőben volna...

Szólj hozzá!

Címkék: életmód

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr1008753496

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása