pg_travel
pg_travel copied to clipboard
Pyramid 환경에서 에이전트 PPO로 학습시켜보기
아마 다음과 같은 순서로 진행하면 되지 않을까 싶습니다. 도움 필요하면 언제나 요청해주세요!
- [ ] pyramid 환경 컴파일해서 환경 테스트 해보기 (상태, 보상 뽑아보기 등)
- [ ] 기존 PPO 알고리즘으로 학습시켜보기
- [ ] curiosity 추가해서 학습시켜보기