I. 인간의 학습 과정 모방, 기계 학습 대량의 데이터를 지도/비지도, 강화 학습 등을 통해 문제의 해답을 찾아내는 기법 지도학습(Supervised Learning) 비지도학습(Unsupervised Learning) 강화학습(Reinforcement Learning) 준지도학습(Semi-Supervised Learning) II. 지도 학습과 비지도 학습의 개념 지도 학습 비지도 학습 – 입출력이 쌍으로 구성된 학습 예제로부터 맵핑하는 함수 학습 형태 – 목표값 없이 입력값으로 공통 특성을 파악하는 귀납적
I. 알파고의 학습 방법, 강화학습 가. 강화학습(Reinforcement Learning)의 개념 – 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습 나. 강화학습의 필요성 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습 II. 강화학습의 기본원리/구성요소 및 세부 알고리즘 가. 강화학습의 원리/구성요소 – 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와 입력(행동) At에 의해 확률적으로 결정되는 모델 구성요소 설명