I. 분류와 예측 모형, 인공신경망, ANN 가. 인공신경망의 개념 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직 나. 인공신경망의 특징 특징 구성요소 예를 통한 학습 – 예를 계속 제시하여 원하는 형태 학습 일반화 – 학습 후 미학습된 입력에도 올바른 출력 연상기억 – 일부 유실된 정보 → 유사한 출력 결함
I. 강화 학습 기법, Q-러닝(Q-Learning) 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 의사결정 기반 강화학습 기법 마르코프 의사결정 : 다음 상태의 확률은 오직 현재 상태와 행동에만 영향을 받고, 이전 상태에서 영향 받지 않는 의사결정 II. Q-러닝 학습 절차 및 구성요소 가. Q-러닝의 학습 절차 학습 절차 설명 ① value table Q
I. 최적 Policy 수립, MDP 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용 II. MDP의 전이도/구성요소 및 알고리즘 가. MDP의 전이도/구성요소 전이도 구성요소 – S: 상태의