Woongwon Lee
Woongwon Lee
README에는 다음 내용이 들어가야합니다. 1. 프로젝트 목표 2. 각 환경에 대한 간단 설치 가이드 ( Linux를 기준으로 설명하는게 좋을 것 같습니다) 3. 각 알고리즘 설명 4. 각 환경에 대한 학습...
1 개의 액터러너를 가지고 샘플을 모아서 학습시키는 것은 학습 속도가 느린 것 같습니다. 또한 여러개의 액터러너로 학습시킨 에이전트보다 policy의 quality가 상당히 낮기 때문에 여러 개의 액터러너를 가지고 학습해야할 것 같습니다....
학습은 기존 평평한 곳에서 학습시킨 PPO 에이전트를 베이스라인으로해서 학습 환경은 가능하다면 민규식님의 도움을 받아볼 것. 아래는 대충 나눈 거니까 두 분이서 의논하시면서 진행하시면 어떨까 싶습니다. 중간중간 이 이슈에 과정 남겨주세요!...
아마 다음과 같은 순서로 진행하면 되지 않을까 싶습니다. 도움 필요하면 언제나 요청해주세요! - [ ] pyramid 환경 컴파일해서 환경 테스트 해보기 (상태, 보상 뽑아보기 등) - [ ] 기존 PPO...
현재 unity ppo 코드는 로컬 랩탑(cpu only)에서 돌리는데 mujoco와 달리 state와 action space가 커서 gpu가 있는 서버에서 돌려야합니다. 게다가 ppo는 gpu를 trpo보다 잘 활용할 수 있는 알고리즘입니다. 따라서 다음을 수행해야합니다....

todo: Feudal Network uses dilated lstm for the manager
todo: Feudal Network uses A3C update rule
todo: random goal would be generated by gaussian distribution
