마르코프 결정 프로세스, MDP (Markov Decision Process)
I. 최적 Policy 수립, MDP 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용 II. MDP의 전이도/구성요소 및 알고리즘 가. MDP의 전이도/구성요소 전이도 구성요소 – S: 상태의