X

강화학습 (Reinforcement Learning)

I. 알파고의 학습 방법, 강화학습

가. 강화학습(Reinforcement Learning)의 개념

– 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습

나. 강화학습의 필요성

  • 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움
  • 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습

 

II. 강화학습의 기본원리/구성요소 및 세부 알고리즘

가. 강화학습의 원리/구성요소

– 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와 입력(행동) At에 의해 확률적으로 결정되는 모델

구성요소 설명 사례
State – Agent가 인식하는 자신의 상태 State Set – 모든 가능한 관절의 상태/환경
Action – 특정 State에서 판단에 의한 행위 – 관절을 어떻게 Control 하는가
Reward – 주어진 상태에서 특정 Action 시 얻는 Reward – R: S x A → R
Discount
Factor
– 각 State 받은 Reward를 단순 증가 시 오류 발생 – 무한대 플러스 시 크기 비교 불가
Transition
Probability
– 특정 행동 시 다음 상태 예측 확률 – Psa:(st,at) → sat

나. 강화학습의 세부 알고리즘

구분 알고리즘 설명
마르
코프
반복 값 – 값 함수가 수렴할 때까지 반복
반복 정책 – 임의 정책이 수렴 까지 개선
Q-Learning – 미래 가치(Q) 기반 활동 수행
SARSA – 상태-활동-보상-상태-활동반복
진화형 학습분류자 – 규칙과 정책 분류 및 보상
XCS – Learning Classifier System 등
통계적 급강하법 – 통계기반 최적화 수행 방법
유전 알고리즘 – 환경에 최적화된 개체 선택

III. 강화학습 활용 분야

활용 분야 설명
로봇 제어(알파고) – 최고의 승률을 위한 최적 경로 탐색
게임 개인화 – 활동과 보상 기반 최적 행동 도출
공정 최적화 – 최적의 정책 도출하여 공정을 최적화
웹 정보 검색 – 사용자 정보요구 기반 최적 문서 선별

– 환경 지식의 정교한 학습 위해 Example Set 학습뿐 아니라 여러 문제 총체적 학습 능력이 필요

Categories: 알고리즘/AI
도리: