Logistic Regression
로지스틱 회귀는 이진 분류 문제를 해결하는 데 많이 사용되는 통계 및 머신러닝 기법이다. 이 알고리즘은 독립 변수들의 선형 조합을 통해 결과 변수(종속 변수)가 특정 클래스에 속할 확률을 예측한다. 주로 0 또는 1로 레이블된 이진 분류에서 활용되지만, 다중 클래스 확장도 가능하다.
- 로지스틱: 합격/불합격, 성공/실패, 생존/사망, 진실/거짓 등 이분법적인 결과를 도출하기 위한 경우
- 회귀분석: 과거의 추세를 기반으로 미래 예측
- 로지스틱 회귀분석은 종속변수가 범주형이므로, 분류모델에 더 가까움
사용 함수
로지스틱 회귀에선 대부분은 시그모이드를 사용한다. 하이퍼볼릭 탄젠트는 특수한 경우에만 드물게 사용된다.
함수 | 모양 |
---|---|
시그모이드
1/(1+e^(-x)) |
|
하이퍼볼릭 탄젠트
tanh(x) |
회귀분석의 종류
- 단순회귀분석: 독립변수 1개
- 다중회귀분석: 독립변수 2개 이상
장점과 단점
- 장점: 구현이 간단하며, 해석하기 쉬운 모델이다.
- 과적합 위험이 비교적 낮고, 이진 분류에 효과적이다.
- 단점: 선형 관계가 없는 데이터에서는 성능이 떨어진다.
- 다중 클래스 문제에서 직접 적용하기 어려워 소프트맥스 회귀와 같은 다른 기법이 필요합니다.