HTML

Az élet kódjai

Csináld maga. Senki nem csinálja meg helyetted.

Friss topikok

Ezért utálom a Wilcoxon-tesztet

2018.09.03. 15:36 Travis.CG

Igazából több okom is van a teszt megvetésére. Először is, jelenleg mindenre ezt kell használnom, ha kell, ha nem. Hiába vannak jobb módszerek például a differenciál expresszió meghatározására, csakis Wilcoxon-tesztet lehet rá használni.

Első ránézésre semmi gond nincs a próbával, hiszen nem paraméteres, tehát nem kell azzal foglalkozni, hogy normál eloszlású populációból származó mintákra alkalmazzuk. De tényleg csak ennyi az egész? A több száz oldalt megtöltő statisztikai könyveket dobjuk ki, és redukáljuk a tudásunkat egyetlen tesztre?

Természetesen nem, és ez a teszt első nagy hibája. Olyan, mint az Excel. Azt sugalmazza, hogy nem kell érteni semmihez, csak használni. Lustává teszi az embert, dilettánssá, aki végül akkor sem távolodik el a jól ismert módszertől, amikor semmi nem indokolja a használatát. Pedig ennek a tesztnek is van feltétele, amit nagyvonalúan el szoktak felejteni, de erről majd később.

A második hiba, hogy igazából nincs is Wilcoxon-teszt. A név szintén a lustaság eredménye, amikor használói arra sem veszik a fáradságot, hogy rendesen megnevezzék a tesztet, majd szerencsétlen bioinformatikusok (természetesen nem rólam van szó, én egy rózsaszín felhőn élek a szivárványon túl) olyan leveleket kapnak, hogy "Wilcoxon teszt helyett használj Mann-Whitney-t".

Szóval van a Wilcoxon-féle rangösszeg teszt (amit Mann-Whitney-próbának is neveznek, angolul pedig a Wilcoxon rank-sum test) és a páros Wilcoxon-próba (angolul Wilcoxon-signed rank test). A hanyagságot erősíti, hogy R-ben a két teszthez ugyan azt a függvényt kell használni: wilcox.test(). A különbség a paired opció használatával érhető el. Ha értéke igaz, a második módszer alapján számol.

De mit is számol igazából? Mi az, ami miatt óvakodni kell a használatától? Először is, a teszt a számok növekvő sorrendbe rendezett sorszámával dolgozik. Ha tehát van három számunk (23,3; 44,3; 65,1), abból csak 1, 2, 3 lesz. Elveszítünk minden eloszlással kapcsolatos információt. Ez ordinális adatoknál nem nagy probléma, de folytonosak esetén igen.

Tehát, ha valaki használni akarja ezt a tesztet, előtte alaposan gondolja át, mit is akar, mielőtt gondolkodás nélkül alkalmazza azt.

1 komment

Címkék: statisztika

A bejegyzés trackback címe:

https://cybernetic.blog.hu/api/trackback/id/tr6314211087

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

robertherczeg 2018.09.04. 07:47:19

Nekem a kedvenc az volt, hogy:

"Inkább eleve Mann-Whitney és/vagy Wilcoxon tesztet használjunk, mert azzal úgy is kijön a különbség".
süti beállítások módosítása