단순 선형 회귀: 단계별 수학적 해설 (KO)

모든 통계적 여정은 하나의 선에서 시작됩니다. 단순 선형 회귀가 바로 그 선입니다 — 데이터 과학에서 가장 기본적인 예측 모델이자, 모든 고급 회귀 기법의 기반이 되는 것입니다.

하나의 독립 변수로 종속 변수를 예측하고 싶다면, 우리의 선형 회귀 계산기가 몇 초 만에 답을 제공할 것입니다. 하지만 그 답이 어떻게 도출되는지 이해하는 것이 단순히 버튼만 누르는 사람과 데이터 실무자를 구분 짓습니다.

이 가이드는 최초 원리부터 단순 선형 회귀를 안내합니다. 작은 데이터셋을 사용하여 모든 중간 값을 직접 계산하고, 최종 방정식을 함께 도출할 것입니다. 시각적 소개를 원하신다면 칸아카데미의 추세선 가이드를 확인해 보세요.

이 글을 마치면 원시 데이터에서 회귀 방정식 y = mx + b를 계산하고, 결과를 해석하며, 데이터가 필요한 가정을 충족하는지 확인할 수 있게 됩니다.

단순 선형 회귀란 무엇인가?

단순 선형 회귀는 데이터에 직선을 맞추어 **하나의 독립 변수(x)**와 하나의 종속 변수(y) 사이의 관계를 모델링합니다.

“단순”이라는 단어는 두 개 이상의 예측 변수를 사용하는 다중 회귀와 구별하기 위한 것입니다. 적합된 선은 제곱된 수직 거리의 합을 최소화하도록 선택됩니다 — 이를 **최소제곱법(OLS)**이라고 합니다.

사용해야 할 때:

피해야 할 때:

어느 과외 회사가 학습 시간(x)과 그에 따른 시험 점수(y)를 기록했다고 가정해 봅시다:

첫 번째 단계는 두 변수의 산술 평균을 계산하는 것입니다.

x의 평균 (x̄): (2 + 4 + 6 + 8 + 10) / 5 = 6.0 y의 평균 (ȳ): (65 + 75 + 80 + 90 + 95) / 5 = 81.0

회귀선은 항상 점 (6.0, 81.0)을 지납니다.

다음으로 각 점이 평균에서 얼마나 떨어져 있는지 계산하고 결과를 곱합니다.

학생	x − x̄	y − ȳ	(x − x̄)(y − ȳ)	(x − x̄)²
1	−4	−16	64	16
2	−2	−6	12	4
3	0	−1	0	0
4	2	9	18	4
5	4	14	56	16
합계			150	40

기울기는 x가 1단위 증가할 때 y가 얼마나 변하는지 알려줍니다.

b₁ = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)² b₁ = 150 / 40 = 3.75

해석: 학습 시간이 1시간 추가될 때마다 예측 시험 점수가 3.75점 증가합니다.

절편은 x = 0일 때 예측되는 y값입니다.

b₀ = ȳ − b₁ × x̄ b₀ = 81.0 − 3.75 × 6.0 = 58.5

해석: 학습 시간이 0시간인 학생은 58.5점을 받을 것으로 예측됩니다.

둘을 결합하면: y = 58.5 + 3.75x

이 모델로 예측을 할 수 있습니다. 예를 들어, 7시간을 학습하면: 58.5 + 3.75(7) = 84.75.

데이터 범위를 벗어나 예측하는 것(예: 50시간 학습)을 외삽이라고 합니다. 이는 종종 무의미한 결과를 내며 피해야 합니다.

R²는 y의 변동 중 모델이 설명하는 비율을 측정합니다. r(피어슨 상관계수)는 선형 관계의 강도와 방향을 측정합니다.

이 데이터셋에 대해 우리의 피어슨 상관계수 계산기는 r이 0.9934임을 보여주며, 이는 매우 강한 양의 관계를 나타냅니다. Statology의 피어슨 상관계수에 대해 더 알아보세요.

결과를 신뢰하기 전에 네 가지 OLS 가정을 충족해야 합니다. 우리의 회귀 가정 검사기가 이를 자동화하는 데 도움을 줄 수 있습니다:

기본기를 마스터한 후에는 더 고급 도구가 필요할 수 있습니다:

직접 데이터를 테스트할 준비가 되셨나요? 우리의 무료 회귀 계산기로 오늘 바로 시작해 보세요!