강화학습 (Reinforcement Learning)

I. 알파고의 학습 방법, 강화학습

가. 강화학습(Reinforcement Learning)의 개념

– 데이터의 상태를 인식하여 행위 기반 환경으로 받는 보상을 학습하여 최적화 정책 찾는 기계학습

나. 강화학습의 필요성

  • 학습/결과가 무한히 많은 경우 지도/비지도 학습 적용 어려움
  • 매 순간 특정 Action 시 Reward(+1, -1)기반 최적 정책 학습

 

II. 강화학습의 기본원리/구성요소 및 세부 알고리즘

가. 강화학습의 원리/구성요소

– 원리: MDP(Markov Decision Process)기반 상태 전이가 현재 상태 St와 입력(행동) At에 의해 확률적으로 결정되는 모델

구성요소설명사례
State– Agent가 인식하는 자신의 상태 State Set– 모든 가능한 관절의 상태/환경
Action– 특정 State에서 판단에 의한 행위– 관절을 어떻게 Control 하는가
Reward– 주어진 상태에서 특정 Action 시 얻는 Reward– R: S x A → R
Discount
Factor
– 각 State 받은 Reward를 단순 증가 시 오류 발생– 무한대 플러스 시 크기 비교 불가
Transition
Probability
– 특정 행동 시 다음 상태 예측 확률– Psa:(st,at) → sat

나. 강화학습의 세부 알고리즘

구분알고리즘설명
마르
코프
반복 값– 값 함수가 수렴할 때까지 반복
반복 정책– 임의 정책이 수렴 까지 개선
Q-Learning– 미래 가치(Q) 기반 활동 수행
SARSA– 상태-활동-보상-상태-활동반복
진화형학습분류자– 규칙과 정책 분류 및 보상
XCS– Learning Classifier System 등
통계적 급강하법– 통계기반 최적화 수행 방법
유전 알고리즘– 환경에 최적화된 개체 선택

 

III. 강화학습 활용 분야

활용 분야설명
로봇 제어(알파고)– 최고의 승률을 위한 최적 경로 탐색
게임 개인화– 활동과 보상 기반 최적 행동 도출
공정 최적화– 최적의 정책 도출하여 공정을 최적화
웹 정보 검색– 사용자 정보요구 기반 최적 문서 선별

– 환경 지식의 정교한 학습 위해 Example Set 학습뿐 아니라 여러 문제 총체적 학습 능력이 필요

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^