paper_readings
paper_readings copied to clipboard
Machine Theory of Mind
Machine Teory of Mind: ふるまいから、他のエージェントのポリシーを推定する。間違いも模倣できる
論文本体・著者
- https://arxiv.org/abs/1802.07740
- Neil C. Rabinowitz, Frank Perbet, H. Francis Song, Chiyuan Zhang, S.M. Ali Eslami, Matthew Botvinick
- DeepMind
解きたい問題
![]() |
---|
Sally Anne Test。 Sallyの視点から考えると、りんごはバスケットに入っているはず、Anneの視点から考えるとりんごは箱に入っているはず、というのを、それぞれの視点に立って考えられるか。 |
- Theory Of Mind
- もともと心理学の話
- "他者の考えを推測する"問題を解けるかが、たとえば自閉症の診断に使える
- https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test
-
Machine Theory Of Mind
- 他のエージェントの振る舞いから、他のエージェントのポリシーを推測するタスク
- 関連する話
- 逆強化学習
- Bayesian Theory of Mind
- ↑よりも、よりスクラッチからやってることが一つのポイント
新規性
- Deep Learningベースで、Theory of Mindを学習する、というタスク
実装
- メタラーニング
- I/O
- 入力: あるエージェントがポリシーΠ_iに則ってNステップ行動した軌跡
- 出力: そのエージェントが別のシーンではどういう行動をするか
- つまり、特定のポリシーを学習するのではなく、ポリシーの推定方法を学習する
- I/O
![]() |
---|
ToM(Theory of Mind)-netのコンポーネント |
- ネットワークは以下の3コンポーネントでなる
- 模倣対象のエージェントの、別シーンでの軌跡をつかって、動きのパタンを学習するcharacter net
- 現在シーンで、自分が取った軌跡、を、もし対象エージェントが通った時の内部状態(後述)の変化を模倣するmental net
- これらの動きパタンと内部状態を用いて次のactionの確率を出力するprediction net
- それぞれのネットワークの実装は実験によって異なり、内部状態が変わらない問題では、mental netは用いられない
実験・議論
以下の3ステップでより複雑なエージェントの実験を行なっている
- 状況によらずに、確率的にアクションをとり続けるエージェント(実験1)
- 各々のゴールに向かって、最適なパスをとるエージェント(実験2)
- 深層強化学習を用いて訓練され+全体の一部しか見えないエージェント(実験3,4,5)
実験2
![]() |
---|
論文 Fig. 4 より / (a) エージェントは自分のゴールに向かって最適なパスを通る(ただしマルコフ決定)。ToM-netは、エージェントの振る舞い(a)と現在の状態(b)から未来の行動(d)を出力する |
![]() |
---|
論文 Fig. 5 より / ただしToM-netはゴールに至るまでの全ての振る舞いを見せてもらえるわけではない。(c) 振る舞いのうち0,1,5ステップだけ見せてもらった時の推定されたポリシー。 |
実験4: Sally Anne Testの再現
![]() |
---|
論文 Fig.10より / エージェント(Sally)から見えない位置でゴールが帰らられてしまうことがあるシチュエーション。サブゴール(星)に到達したら、稀に、次のゴール(青)が移動されてしまう。 |
-
左のシチュエーションでは、Sallyから見えている範囲でゴールが変わる。なので、予測(d)は、即座にピンクを避ける / 青に向かうを選択できている
-
右のシチュエーションでは、 Sallyから見えないところで ゴールが変えられてしまった
- 予測(d)は 1) swapは稀なのでまずはもともと青があった方に向かう 2) ピンクに変わってたので避ける 3) 今まで行ってない方に青があるはずなので右に向かう という行動をとっている
- ToM-netは真の青の位置を知っていながらこのトレースができることに注意!
-
もう一点実験2と違い、星 -> 自分の好きな色 という二段階のゴールがある、これをmental net部分でモデル化できていることにも注意
読んだ中での不明点などの感想
- 書ききれなかったけど、とにかく5つの実験の設定が多様な視点で面白い
- Experimentsの章が13ページ中8ページをしめる
- 工学バリバリの話と違って、"何が解けるとうれしいか"の設計もとっても大事だもんな
- 実験結果の評価も面白い
- ベイズで求めた確率分布と一致する出力をしてるとか
- 入力ステップ数が0の時には事前分布ができていて、増やしてくと事後分布が変化していくとか
関連論文
- #34 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
- OpenAI。マルチエージェントの強化学習で、他のエージェントのポリシーを推定する機構を入れている。非常に近い問題意識と感じる。こちらはコミュニケーションをさらに重視。
- 逆強化学習
- ただし、"解こうとしている問題"を推定するのではなく"解き方"を推定するのが大きく違う
- 非最適解もちゃんと模倣する