[태그:] 강화학습

인공신경망 (Artificial Neural Network)

I. 분류와 예측 모형, 인공신경망, ANN 가. 인공신경망의 개념 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직 나. 인공신경망의 특징 특징 구성요소 예를 통한 학습 – 예를 계속 제시하여 원하는 형태 학습 일반화 – 학습 후 미학습된 입력에도 올바른 출력 연상기억 – 일부 유실된 정보 → 유사한 출력 결함

Q-러닝 (Q-Learning)

I. 강화 학습 기법, Q-러닝(Q-Learning) 특정 상태에서 행동에 대한 미래값(Q)을 계산하여, 최적 정책을 찾는 마르코프 의사결정 기반 강화학습 기법 마르코프 의사결정 : 다음 상태의 확률은 오직 현재 상태와 행동에만 영향을 받고, 이전 상태에서 영향 받지 않는 의사결정 II. Q-러닝 학습 절차 및 구성요소 가. Q-러닝의 학습 절차 학습 절차 설명 ① value table Q

마르코프 결정 프로세스, MDP (Markov Decision Process)

1. 최적 Policy 수립, 마르코프 결정 프로세스(MDP) 마르코프 결정 프로세스, MDP (Markov Decision Process) 개념 필요성 이산시간 확률제어 과정으로, 상태, 행동 및 전이확률 기반 최적의 의사결정 정책 을 탐색하는 강화학습 기법 – 인공지능 판단 정책 필요 – 최적 의사결정 탐색 – AI 자율적 학습 필요 – 최적화 문제 도구로 활용 2. 마르코프 결정 프로세스의

기계 학습 (Machine Learning)

1. 인간의 학습 과정 모방, 기계 학습 개념 대량의 데이터를 지도/비지도, 강화 학습 등을 통해 문제의 해답을 찾아내는 기법 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning), 준지도 학습(Semi-Supervised Learning) 등이 포함 2. 기계 학습 중 지도 학습과 비지도 학습의 개념 지도 학습 비지도 학습 – 입출력이 쌍으로 구성된 학습 예제로부터 맵핑하는 함수 학습 형태 –

강화학습 (Reinforcement Learning)

1. 알파고의 학습 방법, 강화학습 (1) 강화학습(Reinforcement Learning)의 개념 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습 (2) 강화학습의 필요성 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습 2. 강화학습의 기본원리/구성요소 및 세부 알고리즘 (1) 강화학습의 원리/구성요소 – 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31