I. 탐험을 위한 액션 선택의 필요성 – 기계학습 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요   II. 탐험을 위한 액션선택 방법의 개념과 선택 기준 방법 개념 액션기준 / 구성요소 그리디 접근법 – 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법 – 현재시점 보상치 – 최대