탐험을 위한 액션 선택

I. 탐험을 위한 액션 선택의 필요성

AI 에이전트는 강화학습을 위해 최대한 많은 경험과 최적의 정책 결정 위한 액션 선택 필요
 

II. 탐험을 위한 액션선택 방법의 개념과 선택 기준

방법개념액션기준 / 구성요소
그리디
접근법
– 현재 순간 최대 보상 기대하는 환경 보상 구조 기반 액션 선택 방법– 현재시점 보상치
– 최대 보상 추정치
– 환경 보상 변수
– 모든 해, 후보 해
랜덤
접근법
– 시점 및 보상 추정과 관계없이 랜덤 액션 및 랜덤 학습 기반 액션선택 방법– 보상치와 무관
– 랜덤 선택 확률
– 랜덤 확률 변수
– RNG 기반 난수
앱실론
그리디
접근법
– 그리디와 랜덤 접근법을 결합하여 보상 기반 일정 확률 무작위 액션선택 방법– 현재시점 보상치
– 랜덤 선택 확률
– 랜덤확률 매개변수
– 랜덤 확률 변수
볼츠만
접근법
– 다른 액션 선택 정보 고려한 소프트맥스기반 가중 확률 액션선택 방법– 액션 가중 확률
– 각 액션 별 추정값
– 소프트맥스
– 점감 매개변수
베이지언
접근법
– 액션에 대한 불확실성을 최대 이용하여 BNN기반 확률적 액션선택 방법– 액션의 불확실성
– 가중치 확률분포
– Dropout 기법
– 신경망 반복 표본

– 각 액션선택 방법 별 장단점 기반 최적의 정책 및 최대 보상선택 필요, 선택 시 고려사항 존재

 

III. 탐험을 위한 액션선택 방법 별 장단점 비교

방법장점단점
그리디
접근법
– 현재 시점에 대한 보상 최대화 가능
– 구현 간단, 고속학습
– 액션 선택 시 일반적 차선 해에 도달
– 순서 기반 최적 행동 학습 불가
랜덤
접근법
– 풍부한 경험 수집
– 상태 공간으로부터 평균 초기화 시 유용
– 장기간 학습 필요
– 학습 예측 불가
– 보상치와 관계없는 해에 도달
앱실론
그리디
접근법
– 수행 단순 + 효과성
– 적응적 확률 기법
– 기반 초반 탐험촉진 후반 안정화
– 랜덤 확률 추가 계산
– 단순 액션 기반
보상 여부만 고려
볼츠만
접근법
– 타 액션선택 고려
– 차선 액션 제외가능
– 잠재적 유망 선택
– 에이전트 확신 척도
– 액션 기반 에이전트 불확실성 이해부족
– 에이전트 확신척도는 최선 정책이 아님
베이지언
접근법
– 불확실 추정치 도출
– 가중치확률분포 유지
– 높은 보상 획득률
– 다수 표본추출 필요
– 계산 복잡도 증가
– Dropout 추가계산
– 노이즈에 영향

– 인간의 액션 선택 메커니즘과 같이 타 액션에 대한 불확실성 도출 및 확률 기반 최적 선택 고려 필요
 

IV. 최적의 액션선택 방안 및 고려사항

– 볼츠만, 베이지언 기법이 타 기법의 단점을 보완, 유용하며, 그리디, 랜덤 기법은 기반 기술로 활용

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^