N-슬롯머신 시뮬레이터
Average Reward (per step)
Cumulative Regret
Arms (true probs)
수동 입력하거나 Randomize
Run Info
Current run: 0 / 0
Step: 0 / 0
Avg reward (latest): -
Cum regret (latest): -
N-슬롯머신 (N-armed bandit) 짧은 설명
각 슬롯(arm)은 고정된 보상 분포(여기선 Bernoulli: 성공확률 p)를 갖습니다. 에이전트는 각 스텝 하나의 슬롯을 선택하고 보상을 관측합니다. 목표는 제한된 스텝 내 누적 보상을 최대화하는 것으로, 탐험(explore)과 이용(exploit) 사이의 trade-off가 핵심입니다.
알고리즘 요약
- Epsilon-Greedy: 확률 ε로 무작위 선택(탐험), 1-ε로 현재까지 추정 평균이 최고의 슬롯 선택(이용).
- UCB1: 각 슬롯의 평균 + 불확실성 항을 합해 상한을 계산, 상한이 최대인 슬롯을 선택 (이론적 보장 있음).
- Thompson Sampling: 슬롯별 후방분포(Beta)에서 샘플을 뽑아 그 값이 가장 큰 슬롯을 선택 — 실전에서 매우 좋은 성능을 보임.
지표
- Average Reward: 스텝 t까지의 평균 보상.
- Cumulative Regret: 최고 슬롯(만약 항상 고르는 선택)이 주었을 보상 합과 실제 에이전트가 받은 보상 합의 차이.