Vérificateur d'hypothèses de régression
Vérifiez les quatre hypothèses de régression linéaire pour vos données. Testez la linéarité, l’indépendance, l’homoscédasticité et la normalité avec des...
Vérificateur d'hypothèses de régression
Vérifiez les quatre hypothèses de régression linéaire pour vos données. Testez la linéarité, l’indépendance, l’homoscédasticité et la normalité avec des...
Entrez vos points de données
| # | Valeurs X | Valeurs Y |
|---|
Résultats
Résumé
1. Linéarité
2. Indépendance des erreurs
3. Homoscédasticité
4. Normalité des résidus
Points de données (n)
R²
Équation
Détails étape par étape
Comment utiliser Vérificateur d'hypothèses de régression
Model Validity
Ensure your regression results are reliable and your p-values are accurate.
Automated Tests
Runs statistical tests for linearity, normality, and homoscedasticity.
Remediation
Get expert advice on how to fix violated assumptions in your dataset.
Violating assumptions can lead to biased estimates and incorrect scientific conclusions.
Pourquoi vérifier les hypothèses de régression ?
📐 La régression linéaire fait quatre hypothèses clés sur vos données, collectivement connues sous le nom de Conditions de Gauss-Markov. Lorsque les quatre sont satisfaits, l'estimateur des moindres carrés ordinaires (MCO) est le meilleur estimateur linéaire sans biais (BLEU), ce qui signifie qu'il présente la plus petite variance parmi tous les estimateurs linéaires sans biais. La violation d'une hypothèse compromet cette garantie, produisant potentiellement des coefficients biaisés, des erreurs types peu fiables, des valeurs p invalides et des intervalles de confiance inexacts. Les quatre hypothèses OLS sont : (1) Linéarité — la relation entre la variable indépendante X et la variable dépendante Y est véritablement linéaire. Si la relation réelle est courbe, la ligne ajustée dénaturera systématiquement les données, et les estimations de la pente et de l'origine seront biaisées. Vous pouvez vérifier cela visuellement avec un nuage de points ou un graphique résiduel/ajusté, et formellement avec un test RESET.
📊 (2) Indépendance — les résidus (erreurs) sont indépendants les uns des autres. Ceci est le plus souvent violé dans les données de séries chronologiques, où les observations consécutives ont tendance à être corrélées – un phénomène appelé autocorrélation. L’autocorrélation gonfle la signification apparente, faisant apparaître les relations plus fortes qu’elles ne le sont réellement. Le test de Durbin-Watson détecte une autocorrélation de premier ordre.
📊 (3) Homoscédasticité — la variance des résidus est constante à tous les niveaux des valeurs prédites. Lorsque la variance change (hétéroscédasticité), les erreurs types deviennent peu fiables, ce qui invalide les intervalles de confiance et les tests d'hypothèses. Une forme d'entonnoir dans le tracé résiduel est l'indicateur visuel classique. Le test de Breusch-Pagan vérifie formellement cette violation.
❌ (4) Normalité — les résidus sont à peu près normalement distribués. Cette hypothèse est essentielle pour la validité des tests t, des tests F et des intervalles de confiance sur de petits échantillons. Avec de grands échantillons (n > 30), le théorème central limite offre une certaine protection, mais dans de petits ensembles de données, la non-normalité peut conduire à des valeurs p considérablement erronées. Le test Shapiro-Wilk et les tracés QQ sont les outils de diagnostic standard. Vérifier les hypothèses avant de faire confiance à votre modèle est une étape critique que de nombreux analystes ignorent, ce qui conduit à des conclusions erronées, à des réplications échouées et à de mauvaises décisions.