I. 분류와 예측 모형, 인공신경망, ANN 가. 인공신경망의 개념 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직 나. 인공신경망의 특징 특징 구성요소 예를 통한 학습 – 예를 계속 제시하여 원하는 형태 학습 일반화 – 학습 후 미학습된 입력에도 올바른 출력 연상기억 – 일부 유실된 정보 → 유사한 출력 결함
I. 강화 학습 기법, Q-러닝(Q-Learning) 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 의사결정 기반 강화학습 기법 마르코프 의사결정 : 다음 상태의 확률은 오직 현재 상태와 행동에만 영향을 받고, 이전 상태에서 영향 받지 않는 의사결정 II. Q-러닝 학습 절차 및 구성요소 가. Q-러닝의 학습 절차 학습 절차 설명 ① value table Q
1. 최적 Policy 수립, 마르코프 결정 프로세스(MDP) 마르코프 결정 프로세스, MDP (Markov Decision Process) 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용 2. 마르코프 결정 프로세스의
1. 인간의 학습 과정 모방, 기계 학습 개념 대량의 데이터를 지도/비지도, 강화 학습 등을 통해 문제의 해답을 찾아내는 기법 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning), 준지도 학습(Semi-Supervised Learning) 등이 포함 2. 기계 학습 중 지도 학습과 비지도 학습의 개념 지도 학습 비지도 학습 – 입출력이 쌍으로 구성된 학습 예제로부터 맵핑하는 함수 학습 형태 –
1. 알파고의 학습 방법, 강화학습 (1) 강화학습(Reinforcement Learning)의 개념 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습 (2) 강화학습의 필요성 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습 2. 강화학습의 기본원리/구성요소 및 세부 알고리즘 (1) 강화학습의 원리/구성요소 – 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와