Grid World Simulator
Info
Mode: Idle
Episode: 0 / 0
Steps (epis): 0
Last Return: -
Legend
Wall
Free
Start
Goal
Policy & Values
Policy arrows show greedy action from stored Q or computed policy.
Export / Import
Algorithm Notes
- Q-Learning: 모델 프리, 행동 가치(Q)를 업데이트하며 온라인으로 학습합니다. ε-greedy 탐험 사용.
- Value Iteration: 모델 기반 존재 시 Bellman 최적화 반복으로 상태 가치 V를 계산합니다.
- Policy Iteration: 정책 평가 + 정책 개선을 번갈아 수행합니다.
Grid World (간단 이론)
Grid World는 강화학습에서 가장 기본적인 예제로, 에이전트는 격자 위에서 상하좌우(4방향) 행동을 선택하고 상태 전이와 보상을 받습니다. 목표는 누적 보상을 최대화하도록 정책(행동 규칙)을 학습하는 것입니다.
설정 팁
- 목표(goal) 셀의 보상을 크게 설정하면 에이전트가 목표를 빠르게 찾도록 유도됩니다.
- 셀 기본 보상이 음수이면 돌아다니는 비용이 있어 최단 경로를 선호합니다.
- 장애물(벽)은 이동 불가 셀입니다. 시작-목표를 벽으로 만들지 마세요.