단순 선형 회귀: 단계별 수학적 해설 가이드
단순 선형 회귀를 단계별로 마스터하세요. 실제 예제로 기울기, 절편, R², 상관계수(r)를 직접 계산하는 방법을 배우세요.
모든 통계적 여정은 하나의 선에서 시작됩니다. 단순 선형 회귀가 바로 그 선입니다 — 데이터 과학에서 가장 기본적인 예측 모델이자, 모든 고급 회귀 기법의 기반이 되는 것입니다.
하나의 독립 변수로 종속 변수를 예측하고 싶다면, 우리의 선형 회귀 계산기가 몇 초 만에 답을 제공할 것입니다. 하지만 그 답이 어떻게 도출되는지 이해하는 것이 단순히 버튼만 누르는 사람과 데이터 실무자를 구분 짓습니다.
이 가이드는 최초 원리부터 단순 선형 회귀를 안내합니다. 작은 데이터셋을 사용하여 모든 중간 값을 직접 계산하고, 최종 방정식을 함께 도출할 것입니다. 시각적 소개를 원하신다면 칸아카데미의 추세선 가이드를 확인해 보세요.
배울 내용
이 글을 마치면 원시 데이터에서 회귀 방정식 y = mx + b를 계산하고, 결과를 해석하며, 데이터가 필요한 가정을 충족하는지 확인할 수 있게 됩니다.
단순 선형 회귀란 무엇인가?
단순 선형 회귀는 데이터에 직선을 맞추어 **하나의 독립 변수(x)**와 하나의 종속 변수(y) 사이의 관계를 모델링합니다.
“단순”이라는 단어는 두 개 이상의 예측 변수를 사용하는 다중 회귀와 구별하기 위한 것입니다. 적합된 선은 제곱된 수직 거리의 합을 최소화하도록 선택됩니다 — 이를 **최소제곱법(OLS)**이라고 합니다.
사용해야 할 때 (피해야 할 때)
사용해야 할 때:
- 하나의 연속형 예측 변수와 하나의 연속형 결과 변수가 있을 때
- 산점도가 대략 선형 패턴을 보일 때
- x 단위당 y가 얼마나 변하는지 정량화하고 싶을 때
피해야 할 때:
- 산점도가 명확한 곡선을 보일 때 — 대신 우리의 이차 회귀 계산기를 사용해 보세요.
- 여러 예측 변수가 있을 때 — 다중 선형 회귀를 사용하세요.
- 데이터에 전체 모델을 왜곡할 수 있는 극단적 이상치가 있을 때
데이터셋
어느 과외 회사가 학습 시간(x)과 그에 따른 시험 점수(y)를 기록했다고 가정해 봅시다:
| 학생 | 학습 시간 (x) | 시험 점수 (y) |
|---|---|---|
| 1 | 2 | 65 |
| 2 | 4 | 75 |
| 3 | 6 | 80 |
| 4 | 8 | 90 |
| 5 | 10 | 95 |
1단계: 평균 계산하기
첫 번째 단계는 두 변수의 산술 평균을 계산하는 것입니다.
x의 평균 (x̄): (2 + 4 + 6 + 8 + 10) / 5 = 6.0 y의 평균 (ȳ): (65 + 75 + 80 + 90 + 95) / 5 = 81.0
회귀선은 항상 점 (6.0, 81.0)을 지납니다.
2단계: 편차와 곱 계산하기
다음으로 각 점이 평균에서 얼마나 떨어져 있는지 계산하고 결과를 곱합니다.
| 학생 | x − x̄ | y − ȳ | (x − x̄)(y − ȳ) | (x − x̄)² |
|---|---|---|---|---|
| 1 | −4 | −16 | 64 | 16 |
| 2 | −2 | −6 | 12 | 4 |
| 3 | 0 | −1 | 0 | 0 |
| 4 | 2 | 9 | 18 | 4 |
| 5 | 4 | 14 | 56 | 16 |
| 합계 | 150 | 40 |
3단계: 기울기 계산하기 (b₁)
기울기는 x가 1단위 증가할 때 y가 얼마나 변하는지 알려줍니다.
b₁ = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)² b₁ = 150 / 40 = 3.75
해석: 학습 시간이 1시간 추가될 때마다 예측 시험 점수가 3.75점 증가합니다.
4단계: 절편 계산하기 (b₀)
절편은 x = 0일 때 예측되는 y값입니다.
b₀ = ȳ − b₁ × x̄ b₀ = 81.0 − 3.75 × 6.0 = 58.5
해석: 학습 시간이 0시간인 학생은 58.5점을 받을 것으로 예측됩니다.
5단계: 최종 방정식 작성하기
둘을 결합하면: y = 58.5 + 3.75x
이 모델로 예측을 할 수 있습니다. 예를 들어, 7시간을 학습하면: 58.5 + 3.75(7) = 84.75.
외삽의 위험
데이터 범위를 벗어나 예측하는 것(예: 50시간 학습)을 외삽이라고 합니다. 이는 종종 무의미한 결과를 내며 피해야 합니다.
6단계: 적합도 측정하기 (R²와 r)
R²는 y의 변동 중 모델이 설명하는 비율을 측정합니다. r(피어슨 상관계수)는 선형 관계의 강도와 방향을 측정합니다.
이 데이터셋에 대해 우리의 피어슨 상관계수 계산기는 r이 0.9934임을 보여주며, 이는 매우 강한 양의 관계를 나타냅니다. Statology의 피어슨 상관계수에 대해 더 알아보세요.
7단계: 가정 확인하기
결과를 신뢰하기 전에 네 가지 OLS 가정을 충족해야 합니다. 우리의 회귀 가정 검사기가 이를 자동화하는 데 도움을 줄 수 있습니다:
- 선형성: 관계가 직선 패턴을 따릅니다.
- 독립성: 관측치가 서로 종속적이지 않습니다.
- 등분산성: 잔차(오차)가 일정한 분산을 가집니다.
- 정규성: 잔차가 대략 정규 분포를 따릅니다.
단순 회귀 그 이상
기본기를 마스터한 후에는 더 고급 도구가 필요할 수 있습니다:
핵심 요약
- 기울기는 변화율을 나타냅니다.
- 절편은 x=0에서의 기준값을 제공합니다.
- R²는 모델의 설명력을 정의합니다.
- 외삽은 위험합니다 — 데이터 범위 내에 머무르세요.
- 상관관계는 인과관계가 아닙니다 — 통계는 연관성을 보여줄 뿐, 반드시 인과관계를 의미하지는 않습니다.
직접 데이터를 테스트할 준비가 되셨나요? 우리의 무료 회귀 계산기로 오늘 바로 시작해 보세요!