Sprawdzanie założeń regresji

Sprawdź wszystkie cztery założenia regresji liniowej dla swoich danych. Testuj liniowość, niezależność, homoskedastyczność i normalność za pomocą...

Check Now

Regression Assumptions Diagnostics Visualization

Sprawdzanie założeń regresji

Sprawdź wszystkie cztery założenia regresji liniowej dla swoich danych. Testuj liniowość, niezależność, homoskedastyczność i normalność za pomocą...

Wprowadź swoje punkty danych

#	Wartości X	Wartości Y

Poziom istotności (α)

0.05 0.01 0.10

Jak tego używać Sprawdzanie założeń regresji

Model Validity

Ensure your regression results are reliable and your p-values are accurate.

Automated Tests

Runs statistical tests for linearity, normality, and homoscedasticity.

Remediation

Get expert advice on how to fix violated assumptions in your dataset.

Violating assumptions can lead to biased estimates and incorrect scientific conclusions.

Po co sprawdzać założenia regresji?

📐 Regresja liniowa przyjmuje cztery kluczowe założenia dotyczące danych, zwane łącznie warunkami Gaussa-Markowa. Kiedy wszystkie cztery elementy są spełnione, estymator zwykłej metody najmniejszych kwadratów (OLS) jest najlepszym liniowym nieobciążonym estymatorem (NIEBIESKI) — co oznacza, że ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów liniowych. Naruszenie jakichkolwiek założeń naraża na szwank tę gwarancję, potencjalnie powodując wypaczone współczynniki, niewiarygodne błędy standardowe, nieprawidłowe wartości p i niedokładne przedziały ufności. Cztery założenia OLS to: (1) Liniowość — związek pomiędzy zmienną niezależną X i zmienną zależną Y jest rzeczywiście liniowy. Jeśli rzeczywista zależność jest zakrzywiona, dopasowana linia będzie systematycznie błędnie przedstawiać dane, a zarówno szacunki nachylenia, jak i punktu przecięcia będą obciążone. Możesz to sprawdzić wizualnie za pomocą wykresu rozrzutu lub wykresu reszt kontra dopasowań, a formalnie za pomocą testu RESET.

📊 (2) Niezależność — reszty (błędy) są od siebie niezależne. Zasada ta jest najczęściej naruszana w przypadku danych szeregów czasowych, gdzie kolejne obserwacje są zwykle skorelowane — zjawisko to nazywa się autokorelacją. Autokorelacja zawyża pozorne znaczenie, sprawiając, że relacje wydają się silniejsze, niż są w rzeczywistości. Test Durbina-Watsona wykrywa autokorelację pierwszego rzędu.

📊 (3) Homoscedastyczność — wariancja reszt jest stała na wszystkich poziomach przewidywanych wartości. Kiedy wariancja zmienia się (heteroscedastyczność), błędy standardowe stają się zawodne, co unieważnia przedziały ufności i testy hipotez. Klasycznym wskaźnikiem wizualnym jest kształt lejka na wykresie rezydualnym. Test Breuscha-Pagana formalnie sprawdza, czy to naruszenie.

❌ (4) Normalność — reszty mają w przybliżeniu rozkład normalny. Założenie to ma kluczowe znaczenie dla ważności testów t, testów F i przedziałów ufności w małych próbach. W przypadku dużych próbek (n> 30) centralne twierdzenie graniczne zapewnia pewną ochronę, ale w małych zbiorach danych brak normalności może prowadzić do radykalnie błędnych wartości p. Standardowymi narzędziami diagnostycznymi są test Shapiro-Wilka i wykresy Q-Q. Sprawdzanie założeń zanim zaufasz swojemu modelowi to kluczowy krok, który wielu analityków pomija – prowadzący do błędnych wniosków, nieudanych replikacji i błędnych decyzji.

Sprawdzanie założeń regresji