통계학

다중 회귀 분석: 하나의 예측 변수로 충분하지 않을 때

다중 회귀 분석을 마스터하세요. 방정식, 주요 가정, 다중공선성, 실제 응용 및 편 회귀 계수 해석을 배우세요.

회귀 방정식 계산기 ·
다중 회귀 분석: 하나의 예측 변수로 충분하지 않을 때

집값을 예측하려 한다고 가정해 보세요. 평수만으로는 대략적인 추정치를 얻을 수 있지만, 침실 수, 건물 연식, 동네 범죄율은 어떨까요?

단일 독립 변수로 종속 변수의 변동을 충분히 설명할 수 없을 때, 다중 회귀 분석이 필요합니다.

하나의 예측 변수와 하나의 결과 간의 관계를 모델링하는 단순 선형 회귀와 달리, 다중 회귀는 두 개 이상의 예측 변수를 동시에 고려할 수 있습니다. 그 결과, 결과 변수를 실제로 이끄는 요인에 대해 훨씬 더 정확하고 세밀하며 실행 가능한 모델을 얻을 수 있습니다.

이 가이드에서는 다중 회귀에 대해 알아야 할 모든 것을 다룹니다: 방정식, 계수 해석, 주요 가정, 실제 응용, 그리고 흔한 함정. 전략적 관점의 개요는 하버드 비즈니스 리뷰의 회귀 분석 복습을 참조하세요.


다중 회귀 분석이란?

다중 회귀 분석은 하나의 종속(반응) 변수두 개 이상의 독립(예측) 변수 간의 관계를 모델링하는 통계 기법입니다.

이는 여러 요인이 공동으로 결과에 영향을 미치는 상황으로 단순 선형 회귀를 확장한 것입니다. 다중 회귀 계산기를 사용하여 즉시 분석을 수행할 수 있습니다.

초평면의 개념

핵심 아이디어는 간단합니다: 2차원(x와 y)에서 데이터에 선을 맞추는 대신, 다중 회귀는 3차원 이상에서 데이터에 초평면을 맞춥니다.

각 예측 변수는 고유한 계수를 가지며, 다른 모든 예측 변수를 일정하게 유지한 상태에서 해당 예측 변수의 단위 변화당 결과가 얼마나 변하는지 알려줍니다. 더 자세한 기술적 내용은 위키백과의 다중 선형 회귀 항목을 참조하세요.

”일정하게 유지”가 중요한 이유

이 “일정하게 유지” 속성이 다중 회귀를 그토록 가치 있게 만듭니다. 개별 변수의 효과를 분리할 수 있게 해주며, 이는 별도의 단순 회귀로는 할 수 없는 일입니다.

여러 예측 변수를 사용한 다중 회귀의 3D 시각화

다중 회귀 방정식

다중 회귀 방정식은 익숙한 y = mx + b 형태를 확장합니다:

y = b₀ + b₁x₁ + b₂x₂ + ... + bₙxₙ
다중 회귀 방정식

여기서:

  • y는 종속 변수의 예측값입니다.
  • b₀는 y절편(모든 예측 변수가 0일 때의 예측값)입니다.
  • b₁, b₂, …, bₙ편 회귀 계수입니다.
  • x₁, x₂, …, xₙ은 독립 변수(예측 변수)입니다.

계수 해석하기

각 계수 bᵢ는 다른 모든 예측 변수가 일정하게 유지된다고 가정할 때, xᵢ가 한 단위 증가할 때 y의 변화량을 나타냅니다. 이를 종종 **“편효과”**라고 부릅니다.

주택 가격 예시 모델:

Price = 50,000 + 150(SqFt) + 20,000(Beds) − 1,000(Age)
실용적인 예시 모델
  • 150: 평수가 1 증가할 때마다 가격이 $150 증가하며, 침실 수와 연식은 일정하게 유지됩니다.
  • 20,000: 침실이 하나 추가될 때마다 가격이 $20,000 증가하며, 평수와 연식은 일정하게 유지됩니다.
  • −1,000: 연식이 1년 증가할 때마다 가격이 $1,000 감소하며, 평수와 침실 수는 일정하게 유지됩니다.

다중 회귀와 단순 회귀 비교

올바른 접근법을 선택하기 위해 이 구별을 이해하는 것이 필수적입니다:

특징단순 선형 회귀다중 선형 회귀
예측 변수정확히 1개2개 이상
방정식y = mx + by = b₀ + b₁x₁ + b₂x₂ + …
효과x의 총효과편효과(통제됨)
위험높은 누락 변수 편향감소된 편향(잘 지정된 경우)
도구선형 계산기다중 회귀 계산기

수정 R²: 올바른 지표

모델에 더 많은 예측 변수를 추가하면 원시 R²가 항상 증가합니다. 수정 R²는 모델을 진정으로 개선하지 않는 예측 변수의 추가에 페널티를 부여하여 이를 보정합니다. 예측 변수 수가 다른 모델을 비교할 때는 항상 수정 R²를 사용하세요.


다섯 가지 주요 가정

결과를 신뢰하기 전에 다섯 가지 중요한 가정을 검증해야 합니다. 회귀 가정 검사기를 사용하여 데이터를 검증할 수 있습니다.

1. 선형성

각 예측 변수와 결과 간의 관계는 대략적으로 선형이어야 합니다.

2. 오차의 독립성

잔차는 서로 독립적이어야 합니다(시계열 데이터에 특히 중요).

3. 등분산성

잔차의 분산은 모든 예측값에서 일정해야 합니다.

4. 잔차의 정규성

오차(잔차)는 대략적으로 정규 분포를 따라야 합니다.

5. 다중공선성 없음

예측 변수 간에 상관관계가 너무 높으면 안 됩니다. 그렇지 않으면 개별 계수가 불안정해집니다. 피어슨 상관 계수 계산기로 초기 상관관계를 확인할 수 있습니다.


실제 응용 분야

다중 회귀 분석의 실제 응용
  • 부동산: 크기, 위치, 연식을 기반으로 주택 가치 추정.
  • 금융: 시장 위험과 기업 규모를 사용하여 주식 수익률 설명.
  • 마케팅: TV, 디지털, 인쇄 광고가 총 매출에 미치는 영향 정량화.
  • 의료: 연령, 투여량, 합병증을 기반으로 환자 회복 시간 예측.

피해야 할 흔한 함정

  1. 과적합: 표본 크기에 비해 너무 많은 예측 변수를 추가함.
  2. 다중공선성 무시: 동일한 모델에서 높은 상관관계를 가진 두 변수(예: 인치 단위 키와 cm 단위 키)를 사용함.
  3. 외삽: 원본 데이터의 범위를 크게 벗어난 값을 예측함.
  4. 상관관계와 인과관계 혼동: 변수들이 함께 움직인다고 해서 하나가 다른 하나의 원인이라는 의미는 아님.

직접 해보세요: 대화형 데모

아래 슬라이더를 조정하여 다양한 요인이 예측된 주택 가격에 어떻게 영향을 미치는지 실시간으로 확인하세요:

Predict House Price

Model: Price = b₀ + b₁(SqFt) + b₂(Bedrooms) − b₃(Age)

Predicted Price

$305,000

= 50,000 + 150(1500) + 20,000(3) − 1,000(10)


계산할 준비가 되셨나요?

다중 회귀 계산기는 복잡한 데이터 세트를 처리하고 전체 방정식, 편 회귀 계수, 유의성 수준을 제공합니다.

다중 회귀 계산기 사용하기


핵심 요약

  1. 다중 회귀는 두 개 이상의 예측 변수를 처리하여 단일 결과를 설명합니다.
  2. 편 계수는 다른 변수를 일정하게 유지하면서 하나의 변수 효과를 분리합니다.
  3. 수정 R²는 모델 비교의 황금 표준입니다.
  4. 다중공선성은 다중 회귀의 고유한 위험입니다 — 항상 중복 예측 변수를 확인하세요.
  5. 단순 회귀로 직관을 쌓은 후, 질문이 복잡해지면 다중 회귀로 확장하세요.