reinforcement-learning-kr-v2
reinforcement-learning-kr-v2 copied to clipboard
[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값
안녕하세요. 예제를 실행하던 중, Q-table 에서는 장애물로 가는 액션들이 -50 까지도 가는 상황이고 max(Q(s', a')) 를 할텐데도 에이전트가 자꾸 장애물로 가서 보았더니 E-greedy parameter가 0.9로 설정되어 대부분 랜덤액션을 하는 것으로 추정했습니다.
서적 상에는 0.1 로 표기가 되어있고 SARSA에서도 0.1로 설정되어있는데 epsilon 파라미터의 오류가 아닐까 하여 이슈제기 드립니다.