Проверка на регресионни предположения
Проверете и четирите предположения за линейна регресия за вашите данни. Тест за линейност, независимост, хомоскедастичност и нормалност с подробна...
Проверка на регресионни предположения
Проверете и четирите предположения за линейна регресия за вашите данни. Тест за линейност, независимост, хомоскедастичност и нормалност с подробна...
Въведете вашите данни
| # | X Стойности | Y Стойности |
|---|
Резултати
Резюме
1. Линейност
2. Независимост на грешките
3. Хомоскедастизъм
4. Нормалност на остатъците
Точки за данни (n)
R²
Уравнение
Подробности стъпка по стъпка
Как да използвате Проверка на регресионни предположения
Model Validity
Ensure your regression results are reliable and your p-values are accurate.
Automated Tests
Runs statistical tests for linearity, normality, and homoscedasticity.
Remediation
Get expert advice on how to fix violated assumptions in your dataset.
Violating assumptions can lead to biased estimates and incorrect scientific conclusions.
Защо да проверявате регресионните допускания?
📐 Линейната регресия прави четири ключови допускания за вашите данни, общо известни като условията на Гаус-Марков. Когато и четирите са удовлетворени, обикновеният оценител на най-малките квадрати (OLS) е най-добрият линеен безпристрастен оценител (СИН) — което означава, че има най-малката дисперсия сред всички безпристрастни линейни оценители. Нарушаването на което и да е предположение компрометира тази гаранция, потенциално създавайки предубедени коефициенти, ненадеждни стандартни грешки, невалидни p-стойности и неточни доверителни интервали. Четирите OLS предположения са: (1) Линейност — връзката между независимата променлива X и зависимата променлива Y е наистина линейна. Ако действителната връзка е крива, напасната линия систематично ще представя погрешно данните и както оценките за наклона, така и за пресичането ще бъдат предубедени. Можете да проверите това визуално с точечна диаграма или диаграма на остатъка срещу напасване и формално с тест RESET.
📊 (2) Независимост — остатъците (грешките) са независими една от друга. Това най-често се нарушава при данни от времеви серии, където последователните наблюдения са склонни да бъдат корелирани - феномен, наречен автокорелация. Автокорелацията увеличава привидната значимост, правейки връзките да изглеждат по-силни, отколкото са в действителност. Тестът на Дърбин-Уотсън открива автокорелация от първи ред.
📊 (3) Хомоскедастичност — дисперсията на остатъците е постоянна на всички нива на прогнозираните стойности. Когато дисперсията се промени (хетероскедастичност), стандартните грешки стават ненадеждни, което обезсилва доверителните интервали и тестовете за хипотези. Формата на фуния в остатъчната графика е класическият визуален индикатор. Тестът на Breusch-Pagan официално проверява за това нарушение.
❌ (4) Нормалност — остатъците са приблизително нормално разпределени. Това предположение е критично за валидността на t-тестовете, F-тестовете и доверителните интервали в малки проби. При големи извадки (n> 30) централната гранична теорема осигурява известна защита, но в малки набори от данни ненормалността може да доведе до драматично грешни p-стойности. Тестът на Shapiro-Wilk и Q-Q графиките са стандартните диагностични инструменти. Проверката на предположенията преди да се доверите на вашия модел е критична стъпка, която много анализатори пропускат - което води до погрешни заключения, неуспешни повторения и лоши решения.