IT용어위키



정규분포

정규 분포(正規 分布, 영어: normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포의 하나로, 평균을 중심으로 대칭적인 종 모양의 곡선 형태를 가진다. 이 분포는 수집된 자료의 분포를 근사하는 데 자주 사용되며, 중심 극한 정리에 따라 독립적인 확률 변수들의 평균은 정규 분포에 가까워지는 성질이 있다.

개요

정규 분포는 두 개의 매개변수, 평균(μ)과 표준편차(σ)에 의해 결정되며, 이를 N(μ, σ²)로 표기한다. 특히 평균이 0이고 표준편차가 1인 정규 분포인 N(0, 1)은 표준 정규 분포(standard normal distribution)라 한다.

정규 분포는 자연현상, 생물학적 특성, 경제지표, 측정 오차 등 다양한 분야에서 관측되는 데이터의 분포를 설명하는 데 광범위하게 활용된다.

수식

정규 분포의 확률 밀도 함수는 다음과 같다.

f(x) = (1 / (σ √(2π))) * exp( - (x - μ)² / (2σ²) )
  • μ: 평균
  • σ: 표준편차
  • exp: 자연 지수 함수

특징

  • 대칭성
    • 평균을 중심으로 좌우가 완전히 대칭이다. 평균, 중앙값, 최빈값이 모두 동일하다.
  • 종 모양의 곡선
    • 대부분의 데이터가 평균 근처에 집중되고, 극단적인 값일수록 그 확률이 작아진다.
  • 전체 면적이 1
    • 확률 밀도 함수의 전체 면적은 1이며, 이는 전체 확률의 총합이 100%라는 것을 의미한다.
  • 중심 극한 정리
    • 서로 독립적인 확률 변수들의 평균은 정규 분포로 수렴하게 되므로, 많은 실제 데이터가 정규 분포에 가까워진다.

응용

정규 분포는 다양한 분야에서 활용된다.

  • 통계적 추정 및 가설 검정
    • 표본 평균의 분포가 정규 분포에 근접하므로, 신뢰구간 계산이나 t-검정, z-검정 등에 활용된다.
  • 품질 관리
    • 생산 공정에서 발생하는 오차나 불량률이 정규 분포를 따른다는 가정 하에, 공정 관리 및 개선에 활용된다.
  • 금융 및 경제 분석
    • 주가 수익률, 시장 가격, 수익률의 분포 등에서 정규 분포가 전제되는 경우가 많다.
  • 자연 현상
    • 사람의 키, 시험 점수, 기온 변화 등 많은 측정 데이터가 정규 분포와 유사한 형태를 보인다.

장점과 한계

  • 장점
    • 수학적으로 다루기 쉬우며, 많은 통계 기법이 정규 분포를 가정하고 설계되어 있다. 중심 극한 정리에 의해 널리 응용 가능하다.
  • 한계
    • 현실의 데이터는 정규 분포를 따르지 않는 경우도 많으며, 꼬리가 두껍거나 비대칭인 경우엔 정규 분포가 부적절할 수 있다.

같이 보기

참고 문헌

  • DeGroot, M. H., and Schervish, M. J. (2012). Probability and Statistics. Pearson.
  • Rice, J. A. (2006). Mathematical Statistics and Data Analysis. Duxbury Press.
  • Casella, G., and Berger, R. L. (2002). Statistical Inference. Duxbury Press.

  출처: IT위키(IT위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!