I. 탐험을 위한 액션 선택의 필요성 – 기계학습 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요 II. 탐험을 위한 액션선택 방법의 개념과 선택 기준 방법 개념 액션기준 / 구성요소 그리디 접근법 – 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법 – 현재시점 보상치 – 최대
I. 순간 최적 해 도출, 그리디 알고리즘 개념 특징 특정 순간 최적해를 구하기 위해 최적성과 효율성 개선을 통해 최적의 해를 도출하는 알고리즘 – 최적성의 원리 – 최적 해 보장 불가 – 효율성 개선 II. 그리디 알고리즘 흐름도 및 수행절차 가. 그리디 알고리즘 흐름도 최종 해 도출까지 해 선택, 과정을 반복 & 적합성 확인 나. 그리디 알고리즘 수행절차 # 알고리즘 설명 ① 해 선택 – 부분 해 집합에