X

값 반복

마르코프 결정 프로세스, MDP (Markov Decision Process)

I. 최적 Policy 수립, MDP 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는…