IT용어위키



엑셀 회귀 데이터 분석

엑셀 회귀 데이터 분석은 엑셀의 내장 도구인 분석 도구 팩(Analysis ToolPak)을 이용하여 회귀 분석을 수행하는 방법으로, 데이터 간의 관계를 파악하고 예측 모델을 수립하는 데 활용된다.

개요

엑셀은 사용이 간편한 스프레드시트 프로그램으로, 통계 분석 기능 중 하나인 회귀 분석을 통해 독립 변수와 종속 변수 간의 관계를 분석할 수 있다. 분석 도구 팩을 활성화하면 선형 회귀, 다중 회귀 등 다양한 회귀 모델을 쉽게 수행할 수 있으며, 결정 계수(R²), p-값, 회귀 계수 등 다양한 통계 지표를 제공하여 분석 결과를 해석할 수 있다.

데이터 준비

  • 분석에 앞서 데이터는 열(column)별로 정리되어 있어야 한다.
  • 하나 이상의 독립 변수(예: 광고비, 마케팅 비용 등)와 하나의 종속 변수(예: 판매량)를 명확하게 구분하여 입력한다.
  • 결측치나 이상치가 있는 경우, 사전에 정제하는 것이 좋다.

분석 도구 팩 활성화

엑셀에서 회귀 분석을 수행하기 위해서는 분석 도구 팩을 활성화해야 한다.

  1. 파일 → 옵션 → 추가 기능 → 관리: 엑셀 추가 기능 → 이동
  2. "분석 도구 팩"에 체크한 후 확인을 클릭하면 활성화된다.

회귀 분석 수행

1. 데이터가 입력된 워크시트를 연다.

2. 리본 메뉴에서 "데이터(Data)" 탭을 선택하고 "데이터 분석(Data Analysis)" 버튼을 클릭한다.

3. "회귀(Regression)"를 선택하고 "확인"을 클릭한다. 4. 종속 변수 범위(Input Y Range)와 독립 변수 범위(Input X Range)를 지정한다. 5. 출력 옵션(Output Range)을 설정한 후 "확인"을 클릭하면 회귀 분석 결과가 출력된다.

분석 결과 해석

엑셀의 회귀 분석 결과를 보면 요약 출력(Summary Output) 영역에서 여러 지표가 순서대로 표시된다. 여기서는 각각의 지표가 의미하는 바를 차례대로 설명한다.

엑셀 회귀 분석 도구 결과 예시.png

Regression Statistics

  • Multiple R: 두 변수(독립 변수와 종속 변수) 사이의 상관 계수를 나타낸다. 절댓값이 1에 가까울수록 상관 정도가 높음을 의미한다.
  • R Square: 결정 계수로, 모델이 종속 변수의 변동을 어느 정도 설명하는지를 나타낸다. 0에 가까울수록 설명력이 낮고, 1에 가까울수록 설명력이 높다.
  • Adjusted R Square: 결정 계수를 독립 변수의 개수에 맞추어 보정한 값이다. 독립 변수가 늘어남에 따라 R Square가 과도하게 높아지는 현상을 방지하기 위해 사용한다.
  • Standard Error: 회귀 모델의 표준 오차로, 예측값과 실제값 사이의 평균 오차 크기를 나타낸다. 값이 작을수록 모델의 예측 정확도가 높다고 볼 수 있다.
  • Observations: 분석에 사용된 전체 데이터 포인트(관측값, 샘플)의 개수이다.

ANOVA

엑셀에서는 회귀 분석 시 ANOVA(분산 분석) 표를 함께 제공한다.

  • df: 자유도(degrees of freedom)를 의미한다. Regression 행은 독립 변수 개수에 따른 자유도, Residual 행은 전체 관측값에서 회귀식에 쓰인 파라미터 수를 뺀 자유도, Total 행은 전체 데이터의 자유도를 나타낸다.
  • SS (Sum of Squares): 제곱합으로, Regression은 모델이 설명하는 변동량, Residual은 설명하지 못하는 오차 변동량, Total은 종속 변수의 전체 변동량을 의미한다.
  • MS (Mean Square): 평균제곱으로, SS를 해당 df로 나눈 값이다. Regression의 MS를 Residual의 MS로 나눈 값이 F 값이 된다.
  • F: 회귀식이 통계적으로 유의미한지를 나타내는 F-통계량이다. 일반적으로 Regression MS / Residual MS로 계산된다.
  • Significance F: F-통계량에 대응하는 p-값으로, 회귀 모델 전체가 유의미한지(즉, 독립 변수들이 종속 변수에 영향을 주는지)를 검정한다.
    • 0.05 이하일 경우 유의미하다고 해석하는 경우가 많다.

Coefficients 표

ANOVA 표 아래에는 각 독립 변수별 계수 정보가 나온다.

  • 회귀 계수(Coefficients): 절편(Intercept)과 각 독립 변수의 회귀 계수를 의미한다. 계수가 양수이면 해당 독립 변수가 종속 변수에 정(+)의 영향을, 음수이면 부(-)의 영향을 준다.
  • Standard Error: 계수의 표준 오차로, 계수 추정값의 불확실성을 나타낸다. 값이 작을수록 추정치가 안정적이라고 볼 수 있다.
  • t-Stat: 계수의 유의성을 검정하기 위한 통계량이다. 일반적으로 절댓값이 클수록 유의미할 가능성이 높다.
  • P-value: t-Stat에 대한 p-값으로, 0.05 이하일 경우 통계적으로 유의미하다고 해석하는 경우가 많다.
  • Lower 95%, Upper 95%: 계수에 대한 95% 신뢰구간을 나타낸다. 이 구간에 0이 포함되지 않으면 해당 계수가 통계적으로 유의하다고 볼 수 있다.

위 지표들을 통해 회귀 모델의 전반적인 적합도(R Square, Adjusted R Square 등)와 각 독립 변수의 유의성(P-value), 그리고 예측값과 실제값 사이의 오차(Standard Error 등)을 종합적으로 평가할 수 있다. 엑셀의 Summary Output에서는 이 모든 정보를 한눈에 볼 수 있어, 간단한 회귀 분석에는 유용하게 활용할 수 있다

활용 및 장점

엑셀 회귀 분석은 다음과 같은 상황에서 유용하다.

  • 소규모 데이터셋을 빠르게 분석할 때
  • 간단한 예측 모델 수립 및 데이터 간 상관 관계 파악
  • 비전문가도 쉽게 접근할 수 있는 직관적인 인터페이스 제공

또한, 엑셀의 그래프 기능을 활용하여 산점도, 잔차 플롯 등 시각적 자료를 함께 제공함으로써 분석 결과를 효과적으로 전달할 수 있다.

한계 및 주의사항

  • 엑셀은 대규모 데이터셋이나 복잡한 통계 모델 분석에는 한계가 있을 수 있다.
  • 데이터 정제 및 전처리가 부실할 경우 분석 결과에 오류가 발생할 수 있으므로 주의해야 한다.
  • 분석 도구 팩이 활성화되지 않은 경우, 회귀 분석 옵션을 사용할 수 없으므로 사전 설정이 필요하다.

같이 보기

참고 문헌

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
  • Excel 공식 문서, "분석 도구 팩 사용", https://support.microsoft.com/ko-kr

  출처: IT위키(IT위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!