분산(Variance)은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 지표이다. 분산은 표준 편차의 제곱과 동일하며, 확률 이론과 통계학에서 데이터의 변동성을 측정하는 데 사용된다.
정의
분산은 각 데이터 값과 평균 간의 편차를 제곱하여 평균을 구한 값이다.
- 모집단 분산(σ2)
- σ2 = (1/N) * Σ (Xi - μ)2
- 표본 분산(s2)
- s2 = (1/(n-1)) * Σ (Xi - x̄)2
여기서,
- Xi : 데이터의 각 값
- μ : 모집단의 평균
- x̄ : 표본의 평균
- N : 모집단 크기
- n : 표본 크기
- Σ : 합(sum) 연산
분산과 표준 편차의 차이
분산과 표준 편차는 모두 변동성을 측정하지만 다음과 같은 차이가 있다.
구분 | 분산 (Variance) | 표준 편차 (Standard Deviation) |
---|---|---|
정의 | 편차의 제곱 평균 | 편차 제곱 평균의 제곱근 |
수식 | σ2 = (1/N) * Σ (Xi - μ)2 | σ = sqrt(σ2) |
단위 | 원래 데이터의 제곱 단위 | 원래 데이터와 동일한 단위 |
해석 | 변동성을 수학적으로 분석하는 데 유용 | 데이터의 실제 분포를 직관적으로 해석하는 데 유용 |
사용 용도 | 확률론, 통계 모델, 분산 분석(ANOVA) | 실험 결과의 변동성 분석, 리스크 평가 |
분산 계산 예제
다음 데이터 {3, 7, 7, 19, 21}의 분산을 계산한다.
- 평균(μ) = (3 + 7 + 7 + 19 + 21) / 5 = 11.4
- 각 값의 편차 = (-8.4, -4.4, -4.4, 7.6, 9.6)
- 제곱한 값 = (70.56, 19.36, 19.36, 57.76, 92.16)
- 모집단 분산(σ2) = (70.56 + 19.36 + 19.36 + 57.76 + 92.16) / 5 = 51.84
- 표본 분산(s2) = (70.56 + 19.36 + 19.36 + 57.76 + 92.16) / 4 = 64.8
분산의 성질
- 항상 0 이상이다.
- 값이 평균에서 멀리 퍼져 있을수록 분산이 증가한다.
- 변동성이 크면 분산도 증가한다.
- 표준 편차의 제곱과 동일하다.
분산의 활용
- 확률론
- 확률변수의 분포를 분석하는 데 사용된다.
- 통계 분석
- 실험 결과의 변동성을 평가하는 데 활용된다.
- 리스크 평가
- 금융 및 투자에서 자산의 변동성을 측정하는 데 이용된다.
같이 보기
참고 문헌
- Montgomery, D. C., & Runger, G. C. (2014). Applied Statistics and Probability for Engineers.
- Wikipedia - Variance