A bioinformatikában is vannak divatok. Megjelenik valami új technológia, és hirtelen az válik minden probléma megoldásává. Ilyen volt a rejtett markov láncok a 2000-es évek elején, Hadoop 2008-ban, a mélytanulás 2017-ben, most pedig a nagy nyelvi modellek segítségével akarják a kutatók megfejteni a genomok titkait.
Az ötlet abból indul ki, hogy a DNS (vagy fehérje) lánc egyes régiói más funkciókkal bírnak, és ezen régiók sorrendje hasonló az emberi nyelv szerkezetéhez. Kétségtelen, hogy népszerű analógia, de szerintem teljesen téves. A nukleotid sorrend nem nyelv. Nem gondolatok közlésére való, hanem információ tárolásra, amit a megfelelő pillanatban elő kell hívni. Egy nyelvet egy három éves gyerek megért és használ. De én még egyetlen kutatóval sem találkoztam, aki folyékonyan beszélne DNS-ül.
Ez minden esetre az én véleményem, elképzelhető, hogy a nagy nyelvi modellek sikeresek lesznek. Inkább nézzük meg, eddig milyen eszközök és milyen sikerek vannak.
DNABERT
A DNABERT egy nyelvi modell a humán nem kódoló DNS szakaszokhoz. A tanítás során 512 bázispár hosszú szekvenciákat használtak különböző hosszúságú k-mer tokenizálással. A betanított modellt saját, kis elemszámú adattal mi magunk is testre szabhatjuk, hogy olyan struktúrát keressen, amilyet mi szeretnénk. Nyilvánvaló hátránya, hogy legfeljebb a core promóter elemzésére képes.
ERNIE-RNA
Második programunk szintén egy nagy nyelvi modell, de RNS szerkezeti predikcióra specializált. Korábban is léteztek egyszerű algoritmusok az RNS szerkezetének meghatározására, de azok csak a loopok meghatározására szoltáltak. Az ERNIE-RNA egy lépéssel tovább megy, mert a másodlagos szerkezet mellett funkcionális annotációt is végez. Személy szerint ennek több értelmét látom, mint a DNS elemzésnek. Először is, az RNS-ek rövidebbek, nem kell attól tartani, hogy távoli enhancerek befolyásolják az adott régió funkcionalitását. Másodszor a modell tanításához van elég cimkézett adat. A nem kódoló DNS-t még nem értjük teljes mélységében, ezért szerintem megfelelő tanuló adatot sem tudunk még összeállítani.
ESMFold
Ez a program a Facebook válasza az AlphaFold-ra, ugyanis egy nyelvi modell segítségével igyekszik meghatározni a protein 3D szerkezetet. A programot három éve nem fejlesztik, amiből én arra következtetek, hogy nem volt sikeres az AlphaFold ellen. Egyébként nem tudom, mennyire jó. Van viszont egy olyan funkciója, hogy a 3D struktúrából határozza meg az aminosav sorrendet. Ez elég érdekesnek tűnik, lehetne használni evolúciós modellezésre, mert lehetne nézni, hogy milyen aminosav sorrendek vezetnek ugyan olyan térbeli struktúrákhoz. A program arra is jó példa, hogy csak azért, mert LLM alapú valami, még nem lesz automatikusan sikeres. Még akkor sem, ha egy olyan cég támogatja, mint a Facebook.
Forrás
https://onlinelibrary.wiley.com/doi/10.1002/qub2.70026
https://academic.oup.com/bioinformatics/article/37/15/2112/6128680?login=false
https://www.nature.com/articles/s41467-025-66899-y
https://www.nature.com/articles/s41467-025-64972-0
https://www.nature.com/articles/s41592-021-01252-x
https://www.science.org/doi/10.1126/science.ade2574













