마르코프 결정 프로세스, MDP (Markov Decision Process)

I. 최적 Policy 수립, MDP

개념필요성
이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법– 인공지능 판단 정책 필요
– 최적 의사결정  탐색
– AI 자율적 학습 필요
– 최적화 문제 도구로 활용

 

II. MDP의 전이도/구성요소 및 알고리즘

가. MDP의 전이도/구성요소

전이도구성요소
– S: 상태의 유한 집합
– A: 행동의 유한 집합
– R: 보상 기대값, R(s, a)
– r: Discount Factor (0, 1)
– T: 전이확률, T(s’, a, s)

나. MDP의 주요 알고리즘

Value Iteration (값 반복)Policy Iteration (정책 반복)
– 동적 계획법 사용
–  함수 미사용, V(s)로 대체
– Vi(s)의 i차수 반복 수행
– 명확한 종료 조건
–  계산 단계 1회 수행
– 수렴 시까지 V(s) 반복

– MDP의 핵심 문제는 최적의 의사결정 정책(policy) 를 결정하는 Exploration을 통한 Exploitation 수행

 

III. MDP와 유사 강화학습 알고리즘 비교

항목MDPQ-Learning
결정 과정– 전이확률T(s’,a,s) 계산– 미래값(Q) 계산
정책(Policy)– π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇(𝑠’, 𝑎, 𝑠)– π(s) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑄(𝑠, 𝑎)
최적 값– 수렴 시까지 V(s)수행– Q Table 업데이트

 

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^