Value Iteration
마르코프 결정 프로세스, MDP (Markov Decision Process)
1. 최적 Policy 수립, 마르코프 결정 프로세스(MDP) 마르코프 결정 프로세스, MDP (Markov Decision Process) 개념 필요성 이산시간 확률제어 과정으로, 상태,…
1. 최적 Policy 수립, 마르코프 결정 프로세스(MDP) 마르코프 결정 프로세스, MDP (Markov Decision Process) 개념 필요성 이산시간 확률제어 과정으로, 상태,…