IT용어위키

최근 검색어:

국가정보보안기본지침 개인정보 신경망 인공지능 전금법 학습 회귀 Git 파이썬 행렬

MDP

MDP; Markov Decision Process

특징

Stochastic: 다음 결과는 확률적으로 결정됨
Partially Observable: 전체 결정 과정을 조망할 수 없음

구성

구성	설명
S	상태의 유한 집합
A	행동의 유한 집합
R	보상 기대값, R(s, a)
r	차감 요인, 0~1
T	전이확률, T(s', a, s)

Q 러닝과의 비교

유사한 목적으로 강화학습에 사용되는 Q Learning

항목	MDP	Q 러닝
결정 과정	전이확률T(s’,a,s) 계산	미래값(Q) 계산
정책(Policy)	π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)	π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값	수렴 시까지 V(s)수행	Q 테이블 업데이트

같이 보기

출처: IT위키 (IT위키에서 최신 문서 보기)

* 본 페이지는 IT Wiki에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 IT Wiki에서 확인하세요!