強化学習の問題である報酬の時間的スパースさを解決するために、短期的・長期的二種類のDQNを組み合わせたh-DQNを提案
論文本体・著者
- https://arxiv.org/abs/1604.06057
- Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbaum
- NIPS'16
解きたい問題
新規性
実装
 |
論文 Fig. 1 より |
- もっとも重要な図。extrinsic rewardとintrinsic rewardの二種類のrewardを導入している
 |
論文 Fig. 7 より |
- 赤がMetacontrollerの出力 = Controllerの報酬、プレイヤーの位置がControllerの出力
- 鍵を取って部屋を出るというゲーム(Montezuma’s Revenge)だが、4~6ステップで、それとは全く関係のない、はしごにたどり着くというintrinsic rewardが設定されていることに注意
- どこに行くか(Meta Controller)と、どうやって行くか(Controller)が分離されている
- ちなみに、Meta Controllerも連続値を出力しているわけではなく、幾つかのオブジェクト候補からの選択(と思われる)。ここは通常のDQNのはず。
-
In this work, we built a custom object detector that provides plausible object candidates.
実験・議論
 |
論文 Fig. 2 より |
- 実験1: s6を通ってs1に来ると報酬がもらえるシンプルなゲーム
- ただし右移動は50%でしか成功しない
- 単純なQ学習だとこれすらクリアできない
- MetaControllerは6ステートのどれを次のゴールに設定するかを考える、Controllerはそのintrinsic rewardを取りに行く
 |
論文 Fig. 6 より |
- 実験2: Montezuma’s Revenge
- 先のFig.7のゲーム
- DQNだと全く学習できない
- MetaControllerとControllerはほぼ同じ構成で、3層のCNN+Linear
- Figのように、stepが進むとMetaControllerの出力(Controllerのゴール)は偏っていく
読んだ中での不明点などの感想
- 中間報酬というヒューリスティックスによって解決を補助しているという見方もできる
- MetaControllerがステージに依存しないで動くのか、というのはちょっと不思議
- MetaControllerとControllerの動作周波数という新たなハイパーパラメータ
- でも、同じ周波数で動かしても性能は十分向上する気もする
関連論文
- https://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016