2018년 12월 19일

탐험을 위한 액션 선택

I. 탐험을 위한 액션 선택의 필요성

– AI 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요

II. 탐험을 위한 액션선택 방법의 개념과 선택 기준

방법	개념	액션기준 / 구성요소
그리디 접근법	– 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법	– 현재시점 보상치 – 최대 보상 추정치
그리디 접근법	– 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법	– 환경 보상 변수 – 모든 해, 후보 해
랜덤 접근법	– 시점 및 보상 추정과 관계없이 랜덤 액션 및 랜덤 학습 기반 액션선택 방법	– 보상치와 무관 – 랜덤 선택 확률
랜덤 접근법	– 시점 및 보상 추정과 관계없이 랜덤 액션 및 랜덤 학습 기반 액션선택 방법	– 랜덤 확률 변수 – RNG 기반 난수
앱실론 그리디 접근법	– 그리디와 랜덤 접근법을 결합하여 보상 기반 일정 확률 무작위 액션선택 방법	– 현재시점 보상치 – 랜덤 선택 확률
앱실론 그리디 접근법	– 그리디와 랜덤 접근법을 결합하여 보상 기반 일정 확률 무작위 액션선택 방법	– 랜덤확률 매개변수 – 랜덤 확률 변수
볼츠만 접근법	– 다른 액션 선택 정보 고려한 소프트맥스기반 가중 확률 액션선택 방법	– 액션 가중 확률 – 각 액션 별 추정값
볼츠만 접근법	– 다른 액션 선택 정보 고려한 소프트맥스기반 가중 확률 액션선택 방법	– 소프트맥스 – 점감 매개변수
베이지언 접근법	– 액션에 대한 불확실성을 최대 이용하여 BNN기반 확률적 액션선택 방법	– 액션의 불확실성 – 가중치 확률분포
베이지언 접근법	– 액션에 대한 불확실성을 최대 이용하여 BNN기반 확률적 액션선택 방법	– Dropout 기법 – 신경망 반복 표본

– 각 액션선택 방법 별 장단점 기반 최적의 정책 및 최대 보상선택 필요, 선택 시 고려사항 존재

III. 탐험을 위한 액션선택 방법 별 장단점 비교

방법	장점	단점
그리디 접근법	– 현재 시점에 대한 보상 최대화 가능 – 구현 간단, 고속학습	– 액션 선택 시 일반적 차선 해에 도달 – 순서 기반 최적 행동 학습 불가
랜덤 접근법	– 풍부한 경험 수집 – 상태 공간으로부터 평균 초기화 시 유용	– 장기간 학습 필요 – 학습 예측 불가 – 보상치와 관계없는 해에 도달
앱실론 그리디 접근법	– 수행 단순 + 효과성 – 적응적 확률 기법 – 기반 초반 탐험촉진 후반 안정화	– 랜덤 확률 추가 계산 – 단순 액션 기반 보상 여부만 고려
볼츠만 접근법	– 타 액션선택 고려 – 차선 액션 제외가능 – 잠재적 유망 선택 – 에이전트 확신 척도	– 액션 기반 에이전트 불확실성 이해부족 – 에이전트 확신척도는 최선 정책이 아님
베이지언 접근법	– 불확실 추정치 도출 – 가중치확률분포 유지 – 높은 보상 획득률	– 다수 표본추출 필요 – 계산 복잡도 증가 – Dropout 추가계산 – 노이즈에 영향

– 인간의 액션 선택 메커니즘과 같이 타 액션에 대한 불확실성 도출 및 확률 기반 최적 선택 고려 필요

IV. 최적의 액션선택 방안 및 고려사항

– 볼츠만, 베이지언 기법이 타 기법의 단점을 보완, 유용하며, 그리디, 랜덤 기법은 기반 기술로 활용

Tags:베이지언 접근법, #그리디, 인공지능 탐험 모델, 탐험을 위한 액션 선택, 랜덤 접근법, 앱실론 그리디, 볼츠만 접근법

About The Author

도리

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^응답 취소