Sprawdzanie założeń regresji
Sprawdź wszystkie cztery założenia regresji liniowej dla swoich danych. Testuj liniowość, niezależność, homoskedastyczność i normalność za pomocą...
Sprawdzanie założeń regresji
Sprawdź wszystkie cztery założenia regresji liniowej dla swoich danych. Testuj liniowość, niezależność, homoskedastyczność i normalność za pomocą...
Wprowadź swoje punkty danych
| # | Wartości X | Wartości Y |
|---|
Wyniki
Streszczenie
1. Liniowość
2. Niezależność błędów
3. Homoscedastyczność
4. Normalność reszt
Punkty danych (n)
R²
Równanie
Szczegóły krok po kroku
Jak tego używać Sprawdzanie założeń regresji
Model Validity
Ensure your regression results are reliable and your p-values are accurate.
Automated Tests
Runs statistical tests for linearity, normality, and homoscedasticity.
Remediation
Get expert advice on how to fix violated assumptions in your dataset.
Violating assumptions can lead to biased estimates and incorrect scientific conclusions.
Po co sprawdzać założenia regresji?
📐 Regresja liniowa przyjmuje cztery kluczowe założenia dotyczące danych, zwane łącznie warunkami Gaussa-Markowa. Kiedy wszystkie cztery elementy są spełnione, estymator zwykłej metody najmniejszych kwadratów (OLS) jest najlepszym liniowym nieobciążonym estymatorem (NIEBIESKI) — co oznacza, że ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów liniowych. Naruszenie jakichkolwiek założeń naraża na szwank tę gwarancję, potencjalnie powodując wypaczone współczynniki, niewiarygodne błędy standardowe, nieprawidłowe wartości p i niedokładne przedziały ufności. Cztery założenia OLS to: (1) Liniowość — związek pomiędzy zmienną niezależną X i zmienną zależną Y jest rzeczywiście liniowy. Jeśli rzeczywista zależność jest zakrzywiona, dopasowana linia będzie systematycznie błędnie przedstawiać dane, a zarówno szacunki nachylenia, jak i punktu przecięcia będą obciążone. Możesz to sprawdzić wizualnie za pomocą wykresu rozrzutu lub wykresu reszt kontra dopasowań, a formalnie za pomocą testu RESET.
📊 (2) Niezależność — reszty (błędy) są od siebie niezależne. Zasada ta jest najczęściej naruszana w przypadku danych szeregów czasowych, gdzie kolejne obserwacje są zwykle skorelowane — zjawisko to nazywa się autokorelacją. Autokorelacja zawyża pozorne znaczenie, sprawiając, że relacje wydają się silniejsze, niż są w rzeczywistości. Test Durbina-Watsona wykrywa autokorelację pierwszego rzędu.
📊 (3) Homoscedastyczność — wariancja reszt jest stała na wszystkich poziomach przewidywanych wartości. Kiedy wariancja zmienia się (heteroscedastyczność), błędy standardowe stają się zawodne, co unieważnia przedziały ufności i testy hipotez. Klasycznym wskaźnikiem wizualnym jest kształt lejka na wykresie rezydualnym. Test Breuscha-Pagana formalnie sprawdza, czy to naruszenie.
❌ (4) Normalność — reszty mają w przybliżeniu rozkład normalny. Założenie to ma kluczowe znaczenie dla ważności testów t, testów F i przedziałów ufności w małych próbach. W przypadku dużych próbek (n> 30) centralne twierdzenie graniczne zapewnia pewną ochronę, ale w małych zbiorach danych brak normalności może prowadzić do radykalnie błędnych wartości p. Standardowymi narzędziami diagnostycznymi są test Shapiro-Wilka i wykresy Q-Q. Sprawdzanie założeń zanim zaufasz swojemu modelowi to kluczowy krok, który wielu analityków pomija – prowadzący do błędnych wniosków, nieudanych replikacji i błędnych decyzji.