HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Ha már adatot osztunk meg...

2022.07.20. 22:27 Travis.CG

Az adatok megosztása elég fontos része a jelenlegi tudományos életnek. Ez nem volt mindig így. Még egyetem alatt emlékszem, amikor az Állatökológia Tanszéken dolgoztam, egy cikk írása közben a témavezető nagyon törte a fejét, hogyan írja le úgy az eredményeket, hogy közben minél kevesebbet áruljon el belőlük. Én naívan azt javasoltam, hogy legyen egy nagy táblázatban.

- Azt nem lehet! Ellopják az adatainkat és cikket írnak belőle.

Akkor még nem voltam tisztában a tudomány működésével, és nem értettem, miért baj az, ha valaki több adat felhasználásával viszi előre a tudományt, olyan módon, amire mi egyébként képtelenek lennénk.

Szerencsére manapság már menő dolog adatot megosztani. De mit is tekinthetünk adatnak? Adat bármi lehet. Lehet egy cikk. Nem feltétlenül tudományos cikk, akár egy blog bejegyzés is adatnak minősülhet (főleg, ha vészhelyzetben kell bojlert javítani). Adat lehet programkód is. Lehet egy táblázat, ami tartalmazza egy cikkhez felhasznált információkat. Talán ez áll a legközelebb ahhoz, amire az ember elsőre gondol, ha adatot említenek neki, de akár egy teljes adatbázis is annak minősül.

Főként saját tapasztalatok alapján megpróbálom felvázolni, milyen problémákkal kell szembenéznie egy adat publikálónak és egy adat felhasználónak.

Adat felhasználóként

Először is, az adatot meg kell találni. Ha a cikk azt mondja, ezen az URL-n van az adat, de nincs ott, az megnehezíti a dolgokat. Egyesek veszik a fáradságot, hogy elhelyezzenek egy átirányítást az új oldalra, de néha ez nem valósul meg. Guglival néha fel lehet lelni az átköltöztetett adatot, de ilyen esetben mindig kérdéses, hogy ez ugyan az az adat, vagy csak a semmit mondó neve ugyan az?

Változatok kezelése. Ha az adat látszólag eltérést tartalmaz a cikkben leírtakhoz képest, akkor kérdés, hogy ez egy új adat változat? Miért kellett megváltoztatni? Mit változtattak? Ha az adatokat verziókövetésre alkalmas helyen tették közzé, akkor nincs gond, de mi a helyzet a DropBox-os, Google Drive-os, stb megosztással?

Az adatstruktúra leírása. Hogyan épül fel? Ez legalább annyira fontos, mint maga az adat. Egy cikk nem célja és feladata, hogy a megírásához használt adat minden egyes részletét bemutassa. Ráadásul lehetnek olyan részei is ennek az adatnak, amit nem tartottak fontosnak a szerzők. Egy metaanalízishez ezek nélkülözhetetlenek.

Adat publikálóként

Fontos tudatában lenni, hogy ha közzéteszünk egy adatot, annak utóélete lesz. Olyan utóélete, aminek tőlünk függetlenül is működnie kell. A platform, ahol megosztottuk az adatot, meglesz öt év múlva is? Túl fogja élni a munkahely váltást? Nekünk például az egyik cikkünkhöz tartozott egy weboldal is, ami csak pár évet élt, miután a számítógép, ami kiszolgálta, kinyiffant, biztonsági másolat pedig nem volt.

A metaadatokat is publikáltuk? A programunkat le fogját tudni fordítani? Az adattáblák fejléce informatív? Nekünk lehet, hogy az, hiszen hónapokon keresztül azzal dolgoztunk, de egy új ember is képes ugyan úgy átlátni?

Így FAIR

A fenti problémák egy globális jelenség részei, ezért született meg a FAIR irányelv, ami segíthet nekünk, hogy jó adatmegosztási döntést hozzunk. Az itt bemutatott irányelvek mindegyikét tudtommal még soha senki nem volt képes teljesíteni. Nyilván az élet minden területére kiterjedő kontrolunk nincs, tehát a legjobb jószándék ellenére is kompromisszumokra kényszerülünk, amely befolyásolhatja egyik-másik irányelv megvalósulását. Információim szerint a legtöbb FAIR irányelvet a DOI valósítja meg, így innen hozom a legtöbb példát.

Megtalálható

Azért, hogy az adat megtalálható legyen, szükség van egy globális azonosítóra, amely egyértelműen behatárolja az adatot. A folyóiratoknál ez a DOI azonosító, ami biztosítja, hogy a sok, egyforma nevű koronavírusról szóló cikk közül ki tudjuk választani a minket érdeklőt. Az adathoz metaadatok is kell, hogy tartozzanak, amelyek részletesen leírják az adatot. Gyakorlatilag nincs megszabva, hogy a metaadatoknak mit kell tartalmazniuk. Cikkek esetén a cím, szerzők, absztrakt, folyóirat, stb. szokott lenni a metaadat. Nyilván egy szekvenálási adat megadásánál a legtöbb értelmét veszti. A metaadatoknak szintén indexeltnek, és kereshetőnek kell lennie.

Hozzáférhető

Nyilvánvaló, hogy ha az adatot megosztani akarjuk, akkor hozzáférhetőnek kell lennie. Itt igazából nem szabják meg, hogyan legyen hozzáférhető az adat, csak annyit mondanak, hogy nyílt protokollon kell alapulnia. Ez a protokoll lehet a TCP/IP, de ha az adatainkat postai úton érhetik el, az szintén nyílt protokollnak számít. De ami talán még ennél is fontosabb, hogy a metaadatoknak akkor is hozzáférhetőnek kell lennie, ha az eredeti adatot már törölték. Például ha egy cikket visszavontak, a DOI azonosító alapján az absztraktot továbbra is megnézhetjük.

Átjárható

Az adatok nem magányosan léteznek, hanem rendszert alkotnak, mint ahogy egy könyvtár is rendszert alkot a könyvekből. A rendszer szemlélet miatt az adatoknak hasonló szerkezetet kell mutatniuk, amit úgy fogalmaztak meg, hogy egységes nyelvet kell használniuk. Ha az egyik cikkből csak mondatok számát tartalmazza a metaadat, a másikból pedig a cikk MD5 hash kódját, akkor azokkal nem sokra megyünk. Fontos, hogy ha megosztunk valamit, akkor a felhasználónak ismerős legyen a mi adatunk is, ne kelljen dekódolni, mit is osztottunk meg. Itt kell megemlíteni azt is, hogy az adatnak tartalmaznia kell keresztreferenciákat. Cikk esetén ez az irodalomjegyzék, és ha a cikkek teljesen megfelelnének a FAIR elveknek, akkor csak a DOI azonosítókat tartalmaznának a 200-féle formázás helyett.

Újrahasználható

Ez az elv szoros kapcsolatban van az átjárhatósággal. A metaadatoknak relevánsnak kell lenniük az adott adattípusra, és egyértelműen jelezni kell, hogy milyen liszensz szerint használhatóak. Tehát az elvek nem zárják ki, hogy az adat közzétételét korlátozzuk. Ugyan így az adatok eredetét is tisztázni kell.

Az elvek nagy része logikus és azt gondolhatnánk, hogy egyértelműek. Az adatmegosztás a gyakorlatban mégsem így fest, ezért nem rossz, ha összefoglalják. Érdemes átgondolni, milyen volt az eddigi megoldásaink, és ha úgy ítéljük meg, hogy lehet mit javítani rajtuk, akkor tegyük meg.

Szólj hozzá!

Címkék: életmód bioinformatika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr8517884809

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása