Простая линейная регрессия: Пошаговое математическое руководство
Освойте простую линейную регрессию шаг за шагом. Научитесь вычислять наклон, пересечение, R² и корреляцию вручную с реальными примерами.
Каждое статистическое путешествие начинается с одной линии. Простая линейная регрессия — это та линия, самая фундаментальная прогностическая модель в анализе данных и основа, на которой строится каждый продвинутый метод регрессии.
Если вы хотите предсказать зависимую переменную по одной независимой переменной, наш Калькулятор Линейной Регрессии даст вам ответ за секунды. Однако понимание того, как получен этот ответ, отличает специалиста по данным от того, кто просто нажимает кнопки.
Это руководство проведёт вас через простую линейную регрессию от первых принципов. Мы возьмём небольшой набор данных, вычислим каждое промежуточное значение вручную и вместе придём к итоговому уравнению. Для отличного визуального введения ознакомьтесь с руководством по Линиям Тренда от Khan Academy.
Что Вы Узнаете
К концу этой статьи вы сможете вычислить уравнение регрессии y = mx + b из исходных данных, интерпретировать результаты и убедиться, что ваши данные удовлетворяют необходимым предположениям.
Что Такое Простая Линейная Регрессия?
Простая линейная регрессия моделирует связь между одной независимой переменной (x) и одной зависимой переменной (y), проводя прямую линию через данные.
Слово «простая» отличает её от множественной регрессии, которая использует два или более предиктора. Подогнанная линия выбирается так, чтобы минимизировать сумму квадратов вертикальных расстояний — метод, называемый обычным методом наименьших квадратов (OLS).
Когда Использовать (и Когда Избегать)
Используйте, когда:
- У вас один непрерывный предиктор и один непрерывный результат.
- Диаграмма рассеяния показывает приблизительно линейный паттерн.
- Вы хотите количественно определить, насколько y изменяется на единицу x.
Избегайте, когда:
- Диаграмма рассеяния показывает явную кривую — попробуйте наш калькулятор квадратичной регрессии.
- У вас множество предикторов — используйте множественную линейную регрессию.
- Ваши данные содержат экстремальные выбросы, которые могут исказить всю модель.
Набор Данных
Предположим, компания репетиторов отслеживает часы учёбы (x) и итоговые оценки за тест (y):
| Студент | Часы Учёбы (x) | Оценка за Тест (y) |
|---|---|---|
| 1 | 2 | 65 |
| 2 | 4 | 75 |
| 3 | 6 | 80 |
| 4 | 8 | 90 |
| 5 | 10 | 95 |
Шаг 1: Вычислить Средние Значения
Первый шаг — вычислить среднее арифметическое обеих переменных.
Среднее x (x̄): (2 + 4 + 6 + 8 + 10) / 5 = 6.0 Среднее y (ȳ): (65 + 75 + 80 + 90 + 95) / 5 = 81.0
Линия регрессии всегда проходит через точку (6.0, 81.0).
Шаг 2: Вычислить Отклонения и Произведения
Далее вычислим, насколько каждая точка удалена от среднего, и перемножим результаты.
| Студент | x − x̄ | y − ȳ | (x − x̄)(y − ȳ) | (x − x̄)² |
|---|---|---|---|---|
| 1 | −4 | −16 | 64 | 16 |
| 2 | −2 | −6 | 12 | 4 |
| 3 | 0 | −1 | 0 | 0 |
| 4 | 2 | 9 | 18 | 4 |
| 5 | 4 | 14 | 56 | 16 |
| Сумма | 150 | 40 |
Шаг 3: Вычислить Наклон (b₁)
Наклон показывает, насколько изменяется y при увеличении x на одну единицу.
b₁ = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)² b₁ = 150 / 40 = 3.75
Интерпретация: За каждый дополнительный час учёбы предсказанная оценка за тест увеличивается на 3.75 балла.
Шаг 4: Вычислить Пересечение (b₀)
Пересечение — это предсказанное значение y при x = 0.
b₀ = ȳ − b₁ × x̄ b₀ = 81.0 − 3.75 × 6.0 = 58.5
Интерпретация: Студент, не занимающийся вообще, получит предсказанную оценку 58.5.
Шаг 5: Записать Итоговое Уравнение
Объединяя оба значения: y = 58.5 + 3.75x
Эта модель позволяет делать прогнозы. Например, при учёбе 7 часов получаем: 58.5 + 3.75(7) = 84.75.
Опасность Экстраполяции
Прогнозирование за пределами диапазона ваших данных (например, 50 часов учёбы) называется экстраполяцией. Это часто даёт бессмысленные результаты, и этого следует избегать.
Шаг 6: Оценить Качество Подгонки (R² и r)
R² измеряет, какая доля вариации y объясняется моделью. r (корреляция Пирсона) измеряет силу и направление линейной связи.
Для этого набора данных наш калькулятор корреляции Пирсона даст r = 0.9934, что указывает на очень сильную положительную связь. Узнайте больше о Коэффициенте Корреляции Пирсона на Statology.
Шаг 7: Проверить Предположения
Прежде чем доверять результатам, вы должны удовлетворить четырём предположениям OLS. Наш проверщик предположений регрессии поможет автоматизировать это:
- Линейность: Связь следует прямолинейному паттерну.
- Независимость: Наблюдения не зависят друг от друга.
- Гомоскедастичность: Остатки (ошибки) имеют постоянную дисперсию.
- Нормальность: Остатки приблизительно нормально распределены.
За Пределами Простой Регрессии
Освоив основы, вам могут понадобиться более продвинутые инструменты:
- Множественные Предикторы: Используйте множественную линейную регрессию для сложных сценариев.
- Криволинейные Паттерны: Используйте наш калькулятор квадратичной регрессии.
- Модели Роста: Исследуйте калькулятор экспоненциальной регрессии.
Ключевые Выводы
- Наклон отражает скорость изменения.
- Пересечение даёт базовое значение при x=0.
- R² определяет объяснительную силу модели.
- Экстраполяция рискованна — оставайтесь в пределах диапазона данных.
- Корреляция — это не причинность — статистика показывает ассоциацию, а не обязательно причину и следствие.
Готовы проверить свои данные? Перейдите к нашему бесплатному калькулятору регрессии и начните прямо сейчас!