paper_readings
paper_readings copied to clipboard

Published 20 hours ago •

DwangoMediaVillage

Reame
Issues

Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

Open kogaki opened this issue 7 years ago • 0 comments

強化学習の問題である報酬の時間的スパースさを解決するために、短期的・長期的二種類のDQNを組み合わせたh-DQNを提案

論文本体・著者

https://arxiv.org/abs/1604.06057
- Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbaum
  - MIT
- NIPS'16

解きたい問題

よりスパースな報酬でも学習できる強化学習

新規性

実装


論文 Fig. 1 より

もっとも重要な図。extrinsic rewardとintrinsic rewardの二種類のrewardを導入している
- extrinsic reward *


論文 Fig. 7 より

赤がMetacontrollerの出力 = Controllerの報酬、プレイヤーの位置がControllerの出力
- 鍵を取って部屋を出るというゲーム(Montezuma’s Revenge)だが、4~6ステップで、それとは全く関係のない、はしごにたどり着くというintrinsic rewardが設定されていることに注意
  - どこに行くか(Meta Controller)と、どうやって行くか(Controller)が分離されている
  - ちなみに、Meta Controllerも連続値を出力しているわけではなく、幾つかのオブジェクト候補からの選択(と思われる)。ここは通常のDQNのはず。
    - In this work, we built a custom object detector that provides plausible object candidates.

実験・議論


論文 Fig. 2 より

実験1: s6を通ってs1に来ると報酬がもらえるシンプルなゲーム
- ただし右移動は50%でしか成功しない
- 単純なQ学習だとこれすらクリアできない
  - まじか。。
- MetaControllerは6ステートのどれを次のゴールに設定するかを考える、Controllerはそのintrinsic rewardを取りに行く


論文 Fig. 6 より

実験2: Montezuma’s Revenge
- 先のFig.7のゲーム
- DQNだと全く学習できない
- MetaControllerとControllerはほぼ同じ構成で、3層のCNN+Linear
- Figのように、stepが進むとMetaControllerの出力(Controllerのゴール)は偏っていく

読んだ中での不明点などの感想

中間報酬というヒューリスティックスによって解決を補助しているという見方もできる
MetaControllerがステージに依存しないで動くのか、というのはちょっと不思議
MetaControllerとControllerの動作周波数という新たなハイパーパラメータ
- でも、同じ周波数で動かしても性能は十分向上する気もする

関連論文

https://www.slideshare.net/sotetsukoyamada/kulkarni-et-al-2016
- 同じ論文の日本語まとめ

Dec 04 '17 06:12 kogaki