paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

Open kogaki opened this issue 7 years ago • 0 comments

強化学習の問題である報酬の時間的スパースさを解決するために、短期的・長期的二種類のDQNを組み合わせたh-DQNを提案

論文本体・著者

  • https://arxiv.org/abs/1604.06057
    • Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbaum
      • MIT
    • NIPS'16

解きたい問題

  • よりスパースな報酬でも学習できる強化学習

新規性

実装

image
論文 Fig. 1 より
  • もっとも重要な図。extrinsic rewardとintrinsic rewardの二種類のrewardを導入している
    • extrinsic reward *
image
論文 Fig. 7 より
  • 赤がMetacontrollerの出力 = Controllerの報酬、プレイヤーの位置がControllerの出力
    • 鍵を取って部屋を出るというゲーム(Montezuma’s Revenge)だが、4~6ステップで、それとは全く関係のない、はしごにたどり着くというintrinsic rewardが設定されていることに注意
      • どこに行くか(Meta Controller)と、どうやって行くか(Controller)が分離されている
      • ちなみに、Meta Controllerも連続値を出力しているわけではなく、幾つかのオブジェクト候補からの選択(と思われる)。ここは通常のDQNのはず。
        • In this work, we built a custom object detector that provides plausible object candidates.

実験・議論

image
論文 Fig. 2 より
  • 実験1: s6を通ってs1に来ると報酬がもらえるシンプルなゲーム
    • ただし右移動は50%でしか成功しない
    • 単純なQ学習だとこれすらクリアできない
      • まじか。。
    • MetaControllerは6ステートのどれを次のゴールに設定するかを考える、Controllerはそのintrinsic rewardを取りに行く
image
論文 Fig. 6 より
  • 実験2: Montezuma’s Revenge
    • 先のFig.7のゲーム
    • DQNだと全く学習できない
    • MetaControllerとControllerはほぼ同じ構成で、3層のCNN+Linear
    • Figのように、stepが進むとMetaControllerの出力(Controllerのゴール)は偏っていく

読んだ中での不明点などの感想

  • 中間報酬というヒューリスティックスによって解決を補助しているという見方もできる
  • MetaControllerがステージに依存しないで動くのか、というのはちょっと不思議
  • MetaControllerとControllerの動作周波数という新たなハイパーパラメータ
    • でも、同じ周波数で動かしても性能は十分向上する気もする

関連論文

  • https://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016
    • 同じ論文の日本語まとめ

kogaki avatar Dec 04 '17 06:12 kogaki