[태그:] 정책 반복

Q-러닝 (Q-Learning)

I. 강화 학습 기법, Q-러닝(Q-Learning) 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 의사결정 기반 강화학습 기법 마르코프 의사결정 : 다음 상태의 확률은 오직 현재 상태와 행동에만 영향을 받고, 이전 상태에서 영향 받지 않는 의사결정   II. Q-러닝 학습 절차 및 구성요소 가. Q-러닝의 학습 절차 학습 절차 설명 ① value table Q

마르코프 결정 프로세스, MDP (Markov Decision Process)

I. 최적 Policy 수립, MDP 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정  탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용   II. MDP의 전이도/구성요소 및 알고리즘 가. MDP의 전이도/구성요소 전이도 구성요소 – S: 상태의