X

탐험을 위한 액션 선택

I. 탐험을 위한 액션 선택의 필요성

– 기계학습 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요
 

II. 탐험을 위한 액션선택 방법의 개념과 선택 기준

방법 개념 액션기준 / 구성요소
그리디
접근법
– 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법 – 현재시점 보상치
– 최대 보상 추정치
– 환경 보상 변수
– 모든 해, 후보 해
랜덤
접근법
– 시점 및 보상 추정과 관계없이 랜덤 액션 및 랜덤 학습 기반 액션선택 방법 – 보상치와 무관
– 랜덤 선택 확률
– 랜덤 확률 변수
– RNG 기반 난수
앱실론
그리디
접근법
– 그리디와 랜덤 접근법을 결합하여 보상 기반 일정 확률 무작위 액션선택 방법 – 현재시점 보상치
– 랜덤 선택 확률
– 랜덤확률 매개변수
– 랜덤 확률 변수
볼츠만
접근법
– 다른 액션 선택 정보 고려한 소프트맥스기반 가중 확률 액션선택 방법 – 액션 가중 확률
– 각 액션 별 추정값
– 소프트맥스
– 점감 매개변수
베이지언
접근법
– 액션에 대한 불확실성을 최대 이용하여 BNN기반 확률적 액션선택 방법 – 액션의 불확실성
– 가중치 확률분포
– Dropout 기법
– 신경망 반복 표본

– 각 액션선택 방법 별 장단점 기반 최적의 정책 및 최대 보상선택 필요, 선택 시 고려사항 존재

 

III. 탐험을 위한 액션선택 방법 별 장단점 비교

방법 장점 단점
그리디
접근법
– 현재 시점에 대한 보상 최대화 가능
– 구현 간단, 고속학습
– 액션 선택 시 일반적 차선 해에 도달
– 순서 기반 최적 행동 학습 불가
랜덤
접근법
– 풍부한 경험 수집
– 상태 공간으로부터 평균 초기화 시 유용
– 장기간 학습 필요
– 학습 예측 불가
– 보상치와 관계없는 해에 도달
앱실론
그리디
접근법
– 수행 단순 + 효과성
– 적응적 확률 기법
– 기반 초반 탐험촉진 후반 안정화
– 랜덤 확률 추가 계산
– 단순 액션 기반
보상 여부만 고려
볼츠만
접근법
– 타 액션선택 고려
– 차선 액션 제외가능
– 잠재적 유망 선택
– 에이전트 확신 척도
– 액션 기반 에이전트 불확실성 이해부족
– 에이전트 확신척도는 최선 정책이 아님
베이지언
접근법
– 불확실 추정치 도출
– 가중치확률분포 유지
– 높은 보상 획득률
– 다수 표본추출 필요
– 계산 복잡도 증가
– Dropout 추가계산
– 노이즈에 영향

– 인간의 액션 선택 메커니즘과 같이 타 액션에 대한 불확실성 도출 및 확률 기반 최적 선택 고려 필요
 

IV. 최적의 액션선택 방안 및 고려사항

– 볼츠만, 베이지언 기법이 타 기법의 단점을 보완, 유용하며, 그리디, 랜덤 기법은 기반 기술로 활용

Categories: 알고리즘/AI
도리: