Woongwon Lee issues

Results 12 issues of


                                            Woongwon Lee

README와 코드 주석 추가

README에는 다음 내용이 들어가야합니다. 1. 프로젝트 목표 2. 각 환경에 대한 간단 설치 가이드 ( Linux를 기준으로 설명하는게 좋을 것 같습니다) 3. 각 알고리즘 설명 4. 각 환경에 대한 학습...

enhancement

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기

1 개의 액터러너를 가지고 샘플을 모아서 학습시키는 것은 학습 속도가 느린 것 같습니다. 또한 여러개의 액터러너로 학습시킨 에이전트보다 policy의 quality가 상당히 낮기 때문에 여러 개의 액터러너를 가지고 학습해야할 것 같습니다....

enhancement

경사가 있는 환경에서 에이전트 학습시키기

학습은 기존 평평한 곳에서 학습시킨 PPO 에이전트를 베이스라인으로해서 학습 환경은 가능하다면 민규식님의 도움을 받아볼 것. 아래는 대충 나눈 거니까 두 분이서 의논하시면서 진행하시면 어떨까 싶습니다. 중간중간 이 이슈에 과정 남겨주세요!...

new_environment

Pyramid 환경에서 에이전트 PPO로 학습시켜보기

아마 다음과 같은 순서로 진행하면 되지 않을까 싶습니다. 도움 필요하면 언제나 요청해주세요! - [ ] pyramid 환경 컴파일해서 환경 테스트 해보기 (상태, 보상 뽑아보기 등) - [ ] 기존 PPO...

new_environment

코드를 서버에서 돌리기 위해 여러가지 설정 추가

현재 unity ppo 코드는 로컬 랩탑(cpu only)에서 돌리는데 mujoco와 달리 state와 action space가 커서 gpu가 있는 서버에서 돌려야합니다. 게다가 ppo는 gpu를 trpo보다 잘 활용할 수 있는 알고리즘입니다. 따라서 다음을 수행해야합니다....

enhancement

image link

![cifar1](https://user-images.githubusercontent.com/16641054/46775076-8b17e480-cd40-11e8-9501-89c6fbca36bd.jpg)

Dilated LSTM

todo: Feudal Network uses dilated lstm for the manager

Asynchronous update by the samples from 32 environment

todo: Feudal Network uses A3C update rule

Random goal generation which is needed for exploration of the manager

todo: random goal would be generated by gaussian distribution

images

![image](https://user-images.githubusercontent.com/16641054/50409730-3876a080-0838-11e9-9985-753afc0b35ca.png)