HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Viszlát, és kösz a halakat

2019.12.01. 21:27 Travis.CG

A tudományos munka valutája a publikáció, azt hiszem, ezt senki nem vonja kétségbe. Mint minden valutából, itt sem árt, ha sok van. De meddig mehetünk el a publikáció hajhászásban?

Bioinformatikusként könnyebb dolgom van ilyen szempontból, mert párhuzamosan több projektbe is bele tudok folyni, és bele is folyok, amikor csak tehetem. Mikor megkerestek, hogy tudnék-e segíteni egy RNA-seq adatsor feldolgozásban, azonnal rávágtam, hogy igen.

A projekt jól indult. Elég ritka, hogy normális kísérleti elrendezéssel találkozik az ember, legtöbbször nincs elég ismétlés, nem teljes a kísérleti elrendezés, esetleg olyan kérdésre keresik a választ, amire a vizsgálatok alkalmatlanok. Ez mind benne van a pakliban. Ezért is örültem neki, hogy itt nem így volt. Minden tankönyvi precizitással volt megtervezve.

Nem is tűnt nehéznek a feladat, rutin munkának ígérkezett. Gyorsan megvolt az illesztés, kvantifikáció, differenciál expresszió. Az egyik partner megkért, hogy magyarázzam el a lépéseket, hogy ő is megtanulhassa azokat. Megtettem. Egyik este hét óráig az irodájában voltunk, átrágtunk minden egyes lépést a szkriptemben.

Azután következik, hogy az eredményeket kicsit emésztik, nézegetik. Ilyenkor a kommunikáció el szokott halni, mert a bioinformatikus megtette a kötelességét, a többivel nem fárasztják szegényt. Általában a partnerek ilyenkor mással foglalkoznak, aminek nagyobb a prioritása. Ezt szoktam a "Nagy Kuss" időszakának hívni. A Nagy Kusst időnként megzavarja a Nagy Pánik, amikor véletlenül előveszik az adatokat ismét, és ellentmondást találnak, elfelejtenek egy apróságot. A projekt méretétől függően több pánik is szokott lenne, de ezeket nem lehet nagyságrendileg összevetni. Mindig az aktuális pánik a legnagyobb.

Úgy fél év telhetett el Nagy Kussban, amikor kaptam egy teljesen ártalmatlan e-mailt, amiben azt kérdezték, hogyan lehet a "kiugró géneket kiszűrni". Azt válaszoltam, hogy ezzel nem kell foglalkozni, mert a DESeq2 olyan remek program, hogy ezt megcsinálja nekünk ingyen és bérmentve.

A lavina akkor indult el, amikor azt mondták, hogy a DESeq2 nem csinálja meg, mert nincs ismétlésük. Ekkor néztem egy nagyot, mert a kísérleti elrendezésről nekem olyan emlékeim voltak, hogy volt 9 ismétlés. A vizsgálat leegyszerűsítve úgy nézett ki, hogy 9 emberből vettek két különböző szövetből mintákat. Én a szöveteket hasonlítottam össze a feldolgozás során, a kilenc személy szolgáltatta az ismétléseket, a szövetek voltak az összehasonlítandó kategóriák.

Ők azt állították, hogy a minták nem függetlenek egymástól, mert ugyan abból az emberből vették a két szöveti mintát. Ezért a szövet+egyén kombinációba akartak vizsgálatot végezni. Csakhogy így 18 kategóriájuk volt, mindegyik kategóriában 1 ismétléssel.

Az első zsigeri válaszom az volt, hogy ez nem jó, mert ismétlés nélkül nem lehet RNA-seq-t végezni. Sőt, semmilyen biológiai elemzést. Az egyéneket teljesen felesleges felvenni független változónak, mert nem adnak hozzá annyit a kísérlethez. Javasoltam, hogy ha annyira aggódnak a minták függetlensége miatt, akkor vegyék ketté az adatokat: az első négyből használják "A" szövetet, az utolsó 5-ből "B" szövetet. Ez sem tetszett nekik. Folyamatosan azt hajtogatták, hogy nekik egy kevert modellre van szükségük, de mivel a DESeq2 nem tud kevert modellt, ezért ezt az áthidaló megoldást választják.

Megkérdeztem néhány kollégámat, nekik mi a véleményük, de senki nem értette, miért kellene eltüntetni az ismétléseket. Nekem persze volt egy sejtésem: az egyik levélben volt egy elejtett megjegyzés, hogy ha "nem így csináljuk, nem jön fel az X gén, aminek fel kell jönnie". Végül úgy döntöttem, nem válaszolok a levelekre, úgysem volt semmi értelme a vitának.

Két hét múlva kérdezték, miért nem válaszolok. Elmondtam nekik, hogy tiszteletben tartom a véleményüket, az álláspontok nem közeledtek, magamat meg nem akartam ismételgetni. Ezután egy személyes találkozót szerettek volna, hogy "mindenki megértse a problémát". Belementem.

Saját pénzen elutaztam hozzájuk a megbeszélésre. Kiderült, hogy egy viselkedés ökológiában jártas ember végezte a statisztikai elemzést. Náluk minden esetben normalizálnak az egyénre, ezért szerinte ez egy bevett statisztikai eljárás. Elmondta, hogy kevert modellre van szükség, ezért vették fel független változónak az egyéneket is a szövetek mellé. A potenciális fals pozitívokkal pedig úgy akarnak harcolni, hogy csökkentik a szabadsági fokok számát, ezáltal egy konzervatív elemzést végeznek.

Én érvként azt hoztam fel, hogy a GTEx konzorcium, akik sok egyénből, több szövetből vették az RNS mintákat, azt találták, hogy az egyének közötti kicsi különbség van, a szövetek között sokkal erőteljesebb a variáció. Ezt láttuk mi is, amikor PCA-t és hierarchikus klaszterezést végeztünk a saját adatainkon. Elmeséltem néhány publikációs kalandomat. Egyikben nem volt elég a mintaszám, másikban nem bevett módszert használtak. Mindkét esetben visszadobták a cikket, teljesen jogosan. Említettem, hogy az RNA-seq elég érzékeny, még az is megjelenik a mintákban, ha más napszakban izolálják azokat. Megkérdeztem, hogy az egy sejtes szekvenálásban miért nem probléma, hogy nem függetlenek a minták? Erre nem tudtak válaszolni.

Végül megkérdeztem, nem gond-e, hogy nem tudja, mennyi a bizonytalanság így a minták között, de ez sem volt probléma számukra. Végül megjegyezték, hogy már megírták a kéziratot, és nem fogják megváltoztatni.

Akkor minek mentem oda? Mit vártak tőlem? Aztán arról beszéltek, hogy milyen más kísérletekben jött ki az X gén, és mennyire fontos, hogy itt is megkapják azt. Új mintákat persze nem tudnak szerezni, mert ezeket is nehezen szerezték be.

Ez nem megbeszélés volt, hanem egy ultimátum. Nem ért teljesen váratlanul, az email csata is így végződött. Erre csak annyit mondtam, hogy ha úgysem lesz benne az elemzésem a cikkben, akkor nekem sem kell a szerzők között szerepelnem. Ezen megrökönyödtek, de úgy éreztem, ezt meg kell lépni. Nem kell bármi áron benne lenni egy cikkben. Főleg, ha az tudományosan ennyire megkérdőjelezhető, ha ennyire nem tudom elfogadni a módszereket.

A megbeszélés végére megjelent a csoportot vezető prof is, akinek újra elő kellett adni a problémát. Ez viszont elég szörnyűre sikeredett. A prof szemmel láthatóan nem értette a problémát. Teljesen irreleváns kérdéseket tett fel, üres tekintettel nézett, amikor magyarázni próbáltam, néha bólintott. Úgy éreztem egy kofának is nagyobb sikerrel tudtam volna vázolni a helyzetet. Azt azért meg kell jegyezni, nem is magyaráztam elég érthetően. Csak annyit mondott, hogy beadják jelenlegi formájában, majd a bírálók eldöntik, mi lesz a sorsa. Vele is közöltem a döntésemet. Elfogadta szó nélkül.

Az esetből a legfontosabb lecke, hogy mégsem értem elég jól az RNA-seq-t. Egy tanárom mondta, hogy akkor értünk valamit, ha a témával kapcsolatos adekvát kérdések válaszolni tudunk. Én nem tudtam magát a módszert érdemileg támadni, mert nem tudom például mennyire adna más eredményt egy kevert modell. Nem tudom, mennyi szabadsági foka volt a két módszernek. Nem tudom, hogyan bizonyíthattam volna, hogy a minták függetlensége nem számottevő (a PCA-n kívül). Végezetül nem tudtam egy teljesen laikusnak elmagyarázni az egészet. Richard Feynmann mondta, hogy ha valamit nem tudunk elmagyarázni egy első éves egyetemistának, nem is értjük igazán. Ő a fizika területére értette ezt, de talán átültethető a tudomány más területére is.

De a legfontosabb, hogy nem szabad bármit publikálni. Éppen elég szemét van kint.

Frissítés:
A cikk egyébként megjelent itt.

Szólj hozzá!

Címkék: életmód

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr2615327202

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása