Wielkość próby a normalność rozkładu. Czy test Shapiro-Wilka może wprowadzać w błąd?

Tak, może wprowadzić w błąd. A to dlatego, że wynik testu na normalność rozkładu bardzo silnie zależy od liczebności próby.

Analiza statystyczna w pracy naukowej: ten sam rozkład, różne wnioski

W statystyce medycznej często zakłada się, że test normalności (najczęściej Shapiro-Wilka) daje jednoznaczną odpowiedź: rozkład jest normalny albo nie. W praktyce analiza danych statystycznych powinna wyglądać inaczej. A to dlatego, że wynik testu na normalność rozkładu bardzo silnie zależy od liczebności próby. Dlaczego tak się dzieje? Wyjaśniam poniżej na przykładach.

Weźmy następujący zbiór danych:

7, 7, 1, 5, 9, 8, 7, 5, 8, 6

Dla tego zbioru liczb test Shapiro-Wilka daje nam wartość p = 0,107, a ta sugeruje brak podstaw do odrzucenia normalności rozkładu. Ze statystycznego na język polski oznacza to, że uznajemy, iż rozkład jest normalny. Ale czy to jednocześnie oznacza, że możemy zastosować test parametryczny? Sprawdźmy to!

Powielmy dokładnie ten sam zestaw 10x, czyli otrzymamy zbiór o liczebności n = 100. Na wykresie otrzymujemy identyczny „kształt” danych, mamy tylko większą próbę.

Następnie wykonujemy ponownie test Shapiro-Wilka, który dla tej samej struktury danych co w poprzednim przykładzie, ale innej liczebności, daje nam tym razem wartość p < 0,00000001. Taka wartość p daje mocną podstawę do stwierdzenia braku rozkładu normalnego. I znów ze statystycznego na polski: rozkład nie jest normalny. Czyli tym razem musimy zastosować test nieparametryczny?

Rozkład danych się przecież zupełnie nie zmienił (liczby są te same, ale jest ich 10x więcej). Zmieniła się tylko liczebność próby, a mimo to wniosek statystyczny jest zupełnie inny. O co w tym chodzi?

Co tak naprawdę mierzy test normalności?

Test Shapiro-Wilka nie odpowiada na pytanie: czy dane są „wystarczająco normalne”? On odpowiada na pytanie: czy dane są idealnie zgodne z rozkładem normalnym. Ta subtelna różnica potrafi wywrócić całą analizę normalności rozkładu i wnioskowanie!

W praktyce:

przy małej próbie test nie ma mocy, żeby wykryć odchylenia
przy dużej próbie test wykrywa każde, nawet minimalne odchylenie

Jak to wygląda na wykresach?

Dla n = 10 mamy w teście Shapiro-Wilka p = 0,107, czyli bazując tylko na tej wartości p uznajemy rozkład za normalny. Histogram poniżej pokazuje jednak, że rozkład jest nieregularny, ale test Shapiro-Wilka tego „nie widzi”.

Dla n = 100 mamy w teście Shapiro-Wilka p < 0,001, czyli bazując tylko na tej wartości p uznajemy rozkład za niezgodny z normalnym. Histogram pokazuje identyczny rozkład jak wcześniej, QQ plot wygląda identycznie strukturalnie, ale test Shapiro-Wilka tym razem „widzi” odchylenie (tylko dlatego, że ma większą moc z uwagi na większą liczbę obserwacji).

Dlaczego to jest problem w statystyce medycznej?

W praktyce publikacyjnej bardzo często spotykane jest podejście: „jeśli test Shapiro-Wilka ma p < 0,05 → dane nienormalne → używamy testu nieparametrycznego”.

Na podstawie powyższego przykładu widać jednak, że:

ten sam rozkład może być uznany za „normalny” lub „nienormalny”
decyzja zależy od liczebności próby, a nie od danych

To oznacza, że wybór testu statystycznego może być nieprawidłowy, jeśli opiera się wyłącznie na teście normalności.

Praktyczne podejście do analizy normalności rozkładu

W analizie statystycznej w pracy naukowej warto obok testu na normalność rozkładu włączyć kilka elementów:

interpretację wizualną rozkładu danych (np. histogram, QQ plot) – „Obejrzyj dane na wykresie” to złota zasada analizy danych. Prosta, często zaniedbywana, a niezwykle potężna.
ocenę skośności i kurtozy
liczebność próby
cel analizy

Test normalności powinien być tylko jednym z elementów, a nie decydującym kryterium.

Kluczowe wnioski dla statystyki medycznej:

– wynik testu normalności zależy od liczebności próby

– ten sam rozkład może dawać różne wyniki w zależności od wielkości próby

– test Shapiro-Wilka (lub jego odpowiednik) nie powinien być jedyną podstawą decyzji o normalności rozkładu

– analiza statystyczna wymaga interpretacji, nie tylko oceny wartości p

Bibliografia:

Ghasemi A, Zahediasl S. Normality tests for statistical analysis: a guide for non-statisticians. Int J Endocrinol Metab. 2012;10(2):486-489. doi:10.5812/ijem.3505

Sprawdź inne artykuły z naszego bloga