2018년 12월 24일

마르코프 결정 프로세스, MDP (Markov Decision Process)

I. 최적 Policy 수립, MDP

개념	필요성
이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법	– 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용

전이도	구성요소
	– S: 상태의 유한 집합 – A: 행동의 유한 집합 – R: 보상 기대값, R(s, a) – r: Discount Factor (0, 1) – T: 전이확률, T(s’, a, s)

Value Iteration (값 반복)	Policy Iteration (정책 반복)
– 동적 계획법 사용 – 함수 미사용, V(s)로 대체 – Vi(s)의 i차수 반복 수행	– 명확한 종료 조건 – 계산 단계 1회 수행 – 수렴 시까지 V(s) 반복

– MDP의 핵심 문제는 최적의 의사결정 정책(policy) 를 결정하는 Exploration을 통한 Exploitation 수행