paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Machine Theory of Mind

Open kogaki opened this issue 6 years ago • 0 comments

Machine Teory of Mind: ふるまいから、他のエージェントのポリシーを推定する。間違いも模倣できる

論文本体・著者

  • https://arxiv.org/abs/1802.07740
  • Neil C. Rabinowitz, Frank Perbet, H. Francis Song, Chiyuan Zhang, S.M. Ali Eslami, Matthew Botvinick
    • DeepMind

解きたい問題

Sally Anne Test。 Sallyの視点から考えると、りんごはバスケットに入っているはず、Anneの視点から考えるとりんごは箱に入っているはず、というのを、それぞれの視点に立って考えられるか。
  • Theory Of Mind
    • もともと心理学の話
    • "他者の考えを推測する"問題を解けるかが、たとえば自閉症の診断に使える
      • https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test
  • Machine Theory Of Mind
    • 他のエージェントの振る舞いから、他のエージェントのポリシーを推測するタスク
    • 関連する話
      • 逆強化学習
      • Bayesian Theory of Mind
    • ↑よりも、よりスクラッチからやってることが一つのポイント

新規性

  • Deep Learningベースで、Theory of Mindを学習する、というタスク

実装

  • メタラーニング
    • I/O
      • 入力: あるエージェントがポリシーΠ_iに則ってNステップ行動した軌跡
      • 出力: そのエージェントが別のシーンではどういう行動をするか
    • つまり、特定のポリシーを学習するのではなく、ポリシーの推定方法を学習する
image
ToM(Theory of Mind)-netのコンポーネント
  • ネットワークは以下の3コンポーネントでなる
    • 模倣対象のエージェントの、別シーンでの軌跡をつかって、動きのパタンを学習するcharacter net
    • 現在シーンで、自分が取った軌跡、を、もし対象エージェントが通った時の内部状態(後述)の変化を模倣するmental net
    • これらの動きパタンと内部状態を用いて次のactionの確率を出力するprediction net
  • それぞれのネットワークの実装は実験によって異なり、内部状態が変わらない問題では、mental netは用いられない

実験・議論

以下の3ステップでより複雑なエージェントの実験を行なっている

  • 状況によらずに、確率的にアクションをとり続けるエージェント(実験1)
  • 各々のゴールに向かって、最適なパスをとるエージェント(実験2)
  • 深層強化学習を用いて訓練され+全体の一部しか見えないエージェント(実験3,4,5)

実験2

image
論文 Fig. 4 より / (a) エージェントは自分のゴールに向かって最適なパスを通る(ただしマルコフ決定)。ToM-netは、エージェントの振る舞い(a)と現在の状態(b)から未来の行動(d)を出力する
image
論文 Fig. 5 より / ただしToM-netはゴールに至るまでの全ての振る舞いを見せてもらえるわけではない。(c) 振る舞いのうち0,1,5ステップだけ見せてもらった時の推定されたポリシー。

実験4: Sally Anne Testの再現

image
論文 Fig.10より / エージェント(Sally)から見えない位置でゴールが帰らられてしまうことがあるシチュエーション。サブゴール(星)に到達したら、稀に、次のゴール(青)が移動されてしまう。
  • 左のシチュエーションでは、Sallyから見えている範囲でゴールが変わる。なので、予測(d)は、即座にピンクを避ける / 青に向かうを選択できている

  • 右のシチュエーションでは、 Sallyから見えないところで ゴールが変えられてしまった

    • 予測(d)は 1) swapは稀なのでまずはもともと青があった方に向かう 2) ピンクに変わってたので避ける 3) 今まで行ってない方に青があるはずなので右に向かう という行動をとっている
    • ToM-netは真の青の位置を知っていながらこのトレースができることに注意!
  • もう一点実験2と違い、星 -> 自分の好きな色 という二段階のゴールがある、これをmental net部分でモデル化できていることにも注意

読んだ中での不明点などの感想

  • 書ききれなかったけど、とにかく5つの実験の設定が多様な視点で面白い
    • Experimentsの章が13ページ中8ページをしめる
    • 工学バリバリの話と違って、"何が解けるとうれしいか"の設計もとっても大事だもんな
  • 実験結果の評価も面白い
    • ベイズで求めた確率分布と一致する出力をしてるとか
    • 入力ステップ数が0の時には事前分布ができていて、増やしてくと事後分布が変化していくとか

関連論文

  • #34 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
    • OpenAI。マルチエージェントの強化学習で、他のエージェントのポリシーを推定する機構を入れている。非常に近い問題意識と感じる。こちらはコミュニケーションをさらに重視。
  • 逆強化学習
    • ただし、"解こうとしている問題"を推定するのではなく"解き方"を推定するのが大きく違う
    • 非最適解もちゃんと模倣する

kogaki avatar Mar 06 '18 14:03 kogaki