IT용어위키

스트레이트스루 추정기(Straight-Through Estimator, STE)는 딥러닝에서 미분이 불가능하거나 불연속적인 연산(sign, round, 이산 샘플링 등)을 역전파로 학습 가능하게 만드는 근사 그라디언트(surrogate gradient) 기법이다.

개요

다음과 같은 연산들은 미분이 불가능하거나, 거의 모든 지점에서 기울기가 0에 가깝다.

sign 함수
round 함수
이진 게이트(0 또는 1)
argmax 및 이산 샘플링

STE의 핵심 아이디어는 다음과 같다.

순전파: 원래의 비분리 함수 f(x)를 그대로 사용한다.
역전파: f(x)의 실제 미분 대신, 연속적인 근사 함수 g(x)의 미분을 사용한다.

즉, 학습 시에는 다음과 같이 근사한다.

Forward: y = f(x)
Backward: dL/dx ≈ dL/dy × (dg(x)/dx)

수학적 정의

비연속 함수 f(x)에 대해 Straight-Through Estimator는 다음과 같이 정의된다.

Forward: y = f(x)
Backward: dL/dx ≈ (dL/dy) × (dg(x)/dx)

여기서 g(x)는 f(x)를 매끄럽게 근사하는 연속 함수이며, 매우 단순한 형태를 사용하기도 한다.

예: 기본 sign 함수 STE

Forward: y = sign(x)
Backward(기본형): dL/dx ≈ dL/dy
- sign 연산을 무시하고 그라디언트를 그대로 통과시키는 방식이다.

Clipped STE

기본 STE는 모든 구간에서 그라디언트를 통과시켜 불안정할 수 있다. 일반적인 clipped 형태는 다음과 같다.

Backward:

\[ \frac{dL}{dx} = \begin{cases} \frac{dL}{dy}, & \text{if } |x| \le 1, \\ 0, & \text{otherwise}. \end{cases} \]

Hard-sigmoid 기반 STE

이산 게이팅에서 hard-sigmoid나 clipped linear 같은 단순 근사 함수를 사용하여 안정적인 그라디언트를 제공하는 변형도 존재한다.

활용 분야

이진 신경망(Binary Neural Networks, BNN)
- 가중치/활성을 -1 또는 +1로 제한하므로 STE가 필수적
양자화 신경망(Quantized Neural Networks)
- 8비트 이하 또는 비선형 양자화 함수를 위한 역전파 근사
선택적 활성화(selective projection)
- 스파스 게이팅, 동적 라우팅 등
Mixture-of-Experts의 이산 expert 선택
샘플링 기반 확률적 유닛(stochastic neuron)

장점

미분 불가능한 연산을 사용해도 역전파 기반 학습이 가능하다.
구현이 단순하며 기존 프레임워크(PyTorch, TensorFlow 등)에 쉽게 통합된다.
BNN/양자화 모델 등에서 사실상의 표준이다.

한계

실제 미분이 아닌, 편향된(biased) 근사값을 사용한다.
g(x)의 선택에 따라 학습 안정성·성능이 크게 달라진다.
이론적 최적성 보장은 부족하다.