[태그:] 볼츠만 접근법

탐험을 위한 액션 선택

1. 탐험을 위한 액션 선택의 필요성 AI 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요 2. 탐험을 위한 액션선택 방법의 개념과 선택 기준 방법 개념 액션기준 / 구성요소 그리디 접근법 – 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법 – 현재시점 보상치 – 최대 보상

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31