A rendszer, amiről most szó lesz, egy tárhely, ahol a diszkek RAID 5 tömbben vannak fűzve. Tárolókapacitása 62Tb, aminek nagy részét betelítették a bioinformatikai adatok. Egyik nap tönkrement egy diszk.
A rendszer ezt még vígan tolerálta, de erős figyelmeztetés volt, hogy ideje felkészülni a bajra. Elkezdődött a cserediszkek beszerzése (a közbeszerzésnek nevezett reality show keretében), én meg elkezdtem gondolkodni, hogyan lehetne biztonságba helyezni a meglévő adatokat. Mert ugye biztonsági mentés nincs, annyira kell a tárhely. Szeretünk veszélyesen élni. (Egy időben volt backup, csak a helyigény növekedése felülírta a biztonsági igényeket.)
Annyit kértem a felhasználóktól, hogy a szükségtelen fájlokat kezdjék el törölni, mert van egy másik tárhely (ami szintén használatba van, de az új diszk megérkezéséig talán betelíthetjük), de ott nem fér el ennyi cucc, még tömörítve sem.
Természetesen még csak nem is válaszoltak az emailemre. Akkor elkezdtem én átnézni azokat a könyvtárakat, ahol valami érdekeltségem volt. Találtam egy csomó BAM fájlt, miközben megvolt a FASTQ és a VCF is. Találtam több, mint 2 éves projekteket, melyekből megjelent a publikáció. Kérdeztem, törölhetem-e őket. Azt mondták, törölhetem.
Gondoltam teszek még egy kört, és azokat a projekteket is átnézem, amire nincs rálátásom. Ismét sikerült pár terabyte szükségtelen adatot összeszedni. Ezeket is megkérdeztem, hogy törölhetem-e. Megint nem válaszoltak semmit az emailemre.
Pár nappal később viszont ők kerestek. Nem tudnak belépni a szerverre. Ezen csodálkoztam, mert épp valamit bütyköltem rajta. Rövid keresgélés után kiderült, hogy a RAID 5 tömb nem elérhető. Hoppá! Ez nem jó.
Beléptem a tárhely webes felületére, ahol az az üzenet fogadott, hogy a második diszk is elhalálozott. A nagyon fontos 62Tb-t kitevő adatok eltűntek. Eddig nem pánikolt senki, de ezután, mindenki, mint pók a forró rezsón, úgy rohangált. Röpködtek az emailek, majd rövid idő elteltével mindenki számítógépes szakértővé vált. Jöttek az ötletek, hogyan kell visszaállítani a törölt állományokat. Nem is értettem, miért én csinálom a rendszer felügyeletet, ha ennyi informatikai nagyágyúval vagyok körülvéve.
Aztán tartottunk egy hatalmas Zoom meetinget, amire a PhD hallgatóktól kezdve a csoportvezetőig mindenki ott volt. Kicsit aggódtam is, hogy kikiáltanak bűnbaknak, de szerencsére nyugodt körülmények között zajlott a megbeszélés. Elmondtam nekik, hogy az adatok nem egy darab vinyón vannak, mint a Windows-os PC-jükben, hanem 12-n. A hibatűrés pedig 1 diszk kiesését éli túl, most viszont 2 diszk döglött meg. Ezt el tudták fogadni, de azért megkértek, hogy a supporttól kérdezzem meg, vissza lehet-e állítani az adatokat.
Gondoltam, ez nem fog fájni, ezért megtettem. Azt a választ kaptam, hogy nagyon drágán lehet valamit csinálni, de a siker nem garantált. A beszerzést persze leállítottuk, mert már okafogyottá vált.
Úgyhogy megindult az újratelepítés. Még szerencse, hogy a vezettem egy naplót, milyen rendszergazdai tevékenységeket végeztem a szerveren. Ez most nagyon hasznos volt, mikor emlékezni kellett, milyen programot, hova telepítettem (különösen, amikor a nekem kellett rájönni valamire, mert a program dokumentációja hiányos volt). Sajnos a legújabb feladatokat nem írtam olyan alaposan, mint a négy évvel ezelőttieket, de még így is nagyon sok időt spóroltam magamnak.
Mert minden program kell. Azonnal. Mert dolgozni akarnak ezerrel.
Tanúság: mindig legyen backup, és dokumentálni a szerver beállításokat. És ahogy az amcsi Nikitának tanították: