I. 분류와 예측 모형, 인공신경망, ANN 가. 인공신경망의 개념 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직 나. 인공신경망의 특징 특징 구성요소 예를 통한 학습 – 예를 계속 제시하여 원하는 형태 학습 일반화 – 학습 후 미학습된 입력에도 올바른 출력 연상기억 – 일부 유실된 정보 → 유사한 출력 결함
I. 강화 학습 기법, Q-러닝(Q-Learning) 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 의사결정 기반 강화학습 기법 마르코프 의사결정 : 다음 상태의 확률은 오직 현재 상태와 행동에만 영향을 받고, 이전 상태에서 영향 받지 않는 의사결정 II. Q-러닝 학습 절차 및 구성요소 가. Q-러닝의 학습 절차 학습 절차 설명 ① value table Q
I. 최적 Policy 수립, MDP 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용 II. MDP의 전이도/구성요소 및 알고리즘 가. MDP의 전이도/구성요소 전이도 구성요소 – S: 상태의
I. 인간의 학습 과정 모방, 기계 학습 대량의 데이터를 지도/비지도, 강화 학습 등을 통해 문제의 해답을 찾아내는 기법 지도학습(Supervised Learning) 비지도학습(Unsupervised Learning) 강화학습(Reinforcement Learning) 준지도학습(Semi-Supervised Learning) II. 지도 학습과 비지도 학습의 개념 지도 학습 비지도 학습 – 입출력이 쌍으로 구성된 학습 예제로부터 맵핑하는 함수 학습 형태 – 목표값 없이 입력값으로 공통 특성을 파악하는 귀납적
I. 알파고의 학습 방법, 강화학습 가. 강화학습(Reinforcement Learning)의 개념 – 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습 나. 강화학습의 필요성 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습 II. 강화학습의 기본원리/구성요소 및 세부 알고리즘 가. 강화학습의 원리/구성요소 – 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와 입력(행동) At에 의해 확률적으로 결정되는 모델 구성요소 설명