paper_readings DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning

DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning

Open kogaki opened this issue 7 years ago • 1 comments

物理シミュレーションに基づく運動学習を、短期と長期の学習に分離することで解く


論文 Fig. 2 より

2Hzで高レベルなアクションaHを出力するHLC(High Level Controller)と30Hzで低レベルアクションaLを出力するLLCの２つの系に分けて学習する


論文 Fig. 6 より

HLCの
- 入力は、タスク依存な状態。基本てきにキャラクターやボールの座標だが、周辺の環境マップもふくむ。
  - なので、図のような、CNNを途中でconcatするモデルになる
- 出力aHは、次の2歩の目標座標(LLCに伝える)
- 報酬は (解きたい問題) の段に書いた報酬
LLCの
- 入力は、現在の各関節の姿勢と、aH
- 出力は、各関節の目標関節角
- 報酬は?
  - 既存のビデオの動きに近くなるようにする!

Jul 03 '17 06:07 kogaki

制御方法は３つに大別されて、当時の流行りはOptimization Controlだったようです。

Joint-Space Motion Control:
- 各関節で目的の軌跡をトラックすることで制御。
Stimulus–response network:
- 刺激反応系の制御。人工生命の分野で多く使われているが低自由度のキャラクタに限られ、近年目立った成果はない
Constrained Dynamics Optimization Control：
- 最適化計算を一定時間ごとに実行。制約条件の入れ方等職人芸ではあるけど、顕著な成果を上げている。

Jul 03 '17 06:07 masayoshi-nakamura