HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

  • sdani: Sajnos nekem is hasonló érzéseim vannak az R kiszorulásával kapcsolatban. Remélem jobban fogja tar... (2024.04.29. 10:48) R meetup
  • sdani: Nagyon jók ezek a bejegyzések! Feszültséggel teli, fordulatos, mint egy jobb krimi. :D Abba ne hag... (2024.04.29. 10:35) Wgel CTF
  • sdani: @Travis.CG: Egy kis szerencse sosem árt. :D (2024.03.01. 13:19) A bioinformatika helyzete 2024-ben
  • Travis.CG: Szóval az akadémiai szféra mazochistává tett, amit a Pinephone-al élek ki? Hmm, érdekes összefüggé... (2023.10.05. 18:23) Új barátom az Informatikai titkárságról
  • Travis.CG: Túl nagy a hype körülötte, ezért túlzó elvárások vannak vele szembe. Ha a korábbi chatbotokhoz kép... (2023.02.28. 06:28) chatGPT, a bioinformatikus

Ezért utálom a Wilcoxon-tesztet

2018.09.03. 15:36 Travis.CG

Igazából több okom is van a teszt megvetésére. Először is, jelenleg mindenre ezt kell használnom, ha kell, ha nem. Hiába vannak jobb módszerek például a differenciál expresszió meghatározására, csakis Wilcoxon-tesztet lehet rá használni.

Első ránézésre semmi gond nincs a próbával, hiszen nem paraméteres, tehát nem kell azzal foglalkozni, hogy normál eloszlású populációból származó mintákra alkalmazzuk. De tényleg csak ennyi az egész? A több száz oldalt megtöltő statisztikai könyveket dobjuk ki, és redukáljuk a tudásunkat egyetlen tesztre?

Természetesen nem, és ez a teszt első nagy hibája. Olyan, mint az Excel. Azt sugalmazza, hogy nem kell érteni semmihez, csak használni. Lustává teszi az embert, dilettánssá, aki végül akkor sem távolodik el a jól ismert módszertől, amikor semmi nem indokolja a használatát. Pedig ennek a tesztnek is van feltétele, amit nagyvonalúan el szoktak felejteni, de erről majd később.

A második hiba, hogy igazából nincs is Wilcoxon-teszt. A név szintén a lustaság eredménye, amikor használói arra sem veszik a fáradságot, hogy rendesen megnevezzék a tesztet, majd szerencsétlen bioinformatikusok (természetesen nem rólam van szó, én egy rózsaszín felhőn élek a szivárványon túl) olyan leveleket kapnak, hogy "Wilcoxon teszt helyett használj Mann-Whitney-t".

Szóval van a Wilcoxon-féle rangösszeg teszt (amit Mann-Whitney-próbának is neveznek, angolul pedig a Wilcoxon rank-sum test) és a páros Wilcoxon-próba (angolul Wilcoxon-signed rank test). A hanyagságot erősíti, hogy R-ben a két teszthez ugyan azt a függvényt kell használni: wilcox.test(). A különbség a paired opció használatával érhető el. Ha értéke igaz, a második módszer alapján számol.

De mit is számol igazából? Mi az, ami miatt óvakodni kell a használatától? Először is, a teszt a számok növekvő sorrendbe rendezett sorszámával dolgozik. Ha tehát van három számunk (23,3; 44,3; 65,1), abból csak 1, 2, 3 lesz. Elveszítünk minden eloszlással kapcsolatos információt. Ez ordinális adatoknál nem nagy probléma, de folytonosak esetén igen.

Tehát, ha valaki használni akarja ezt a tesztet, előtte alaposan gondolja át, mit is akar, mielőtt gondolkodás nélkül alkalmazza azt.

1 komment

Címkék: statisztika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr6014211087

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

robertherczeg 2018.09.04. 07:47:19

Nekem a kedvenc az volt, hogy:

"Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, mert azzal úgy is kijön a különbség".
süti beállítások módosítása