IT용어위키



잔차

잔차(residual)는 통계학에서 관측값과 예측값 사이의 차이를 의미한다. 회귀분석(regression analysis)에서 잔차는 각 관측치가 회귀직선에서 얼마나 떨어져 있는지를 나타내며, 모델의 예측오차를 측정하는 데 사용된다.

개념

선형 회귀모형에서는 다음과 같은 식이 기본이 된다:

Yi = Ŷi + ei

  • Yi: 실제 관측값
  • Ŷi: 예측값 (회귀식에 의해 추정된 값)
  • ei: 잔차 = Yi − Ŷi

잔차는 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 보여주며, 잔차가 작을수록 모델의 설명력이 높다고 해석할 수 있다.

특징

  • 잔차들의 평균은 항상 0이다: Σei = 0
  • 회귀선은 잔차의 제곱합(SSE: Sum of Squared Errors)을 최소화하는 방향으로 결정된다 → 최소제곱법(OLS: Ordinary Least Squares)
  • 잔차는 관측값에서 나온 실제 오차이므로, 오차항(error term)과 구분된다. 오차항은 모델에서 가정된 이론적인 오차이고, 잔차는 그 추정값이다.

시각적 이해

산점도 위에 회귀선을 그렸을 때, 각 점과 회귀선 사이의 수직 거리들이 잔차다. 잔차를 그래프로 나타낸 잔차 플롯(residual plot)은 모델이 잘 맞는지, 비선형성, 이분산성, 이상치 등을 파악하는 데 유용하다.

활용

  • 모델 적합도 평가: 잔차가 작을수록 모델이 데이터를 잘 설명한다고 본다
  • 가정 진단: 잔차가 정규분포를 따르고 등분산성을 갖는지 검토함
  • 이상치 탐지: 잔차가 매우 큰 관측값은 이상치일 수 있다

잔차 제곱합 (SSE)

SSE = Σ(Yi − Ŷi)² = Σei²

SSE는 전체 오차의 크기를 나타내며, 이를 줄이는 방향으로 회귀계수가 결정된다.

같이 보기

참고 문헌

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
  • Weisberg, S. (2005). Applied Linear Regression (3rd ed.). Wiley.

  출처: IT위키(IT위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!