paper_readings
paper_readings copied to clipboard
Emergence of Grounded Compositional Language in Multi-Agent Populations
他のエージェントとの協調が必要なタスクを、マルチエージェントの強化学習で解かせることによって、プリミティブな"言語"を獲得させる
論文本体・著者
- https://arxiv.org/abs/1703.04908
- Igor Mordatch, Pieter Abbeel
- OpenAI
解きたい問題
By capturing statistical patterns in large corpora, machine learning has enabled significant advances in natural language processing. However, for agents to intelligently interact with humans, simply capturing the statistical patterns is insufficient.
Abst全体がかっこいいので全文読むべき
新規性
- 通信(言語?)によるコミュニケーションが必要な特定タスクをマルチエージェントの強化学習で解いた
実装
- 言語は20種類の離散値として表現される(20D one-hot vector)
![]() |
---|
論文 Fig.3 より。ポリシーネットワーク。cはまわりから受け取った言語、xは自分+他のエージェントの状態。uは次のアクション。 |
- アクションはシンプルに、{"何もしない" + {"向く", "行く"} x 目的地}
学習方法
- 全エージェントが同じポリシーを持つ
- さらに、全エージェントについて一気にbackpropする
- これによって安定した学習ができる _しかし、これのせいで敵対的なタスクができないとも言える?
- 1024個の異なる配置(エピソード)を1バッチとしてbackpropする
- 安定性向上
- さらに、全エージェントについて一気にbackpropする
実験・議論
![]() |
---|
ブログ中の動画より。このタスクでは、blueエージェントは、redエージェントがblueマークにたどり着くことが報酬となる。自分だけでは達成できない。"blueにいけ"という"言語"を発することを学ぶようになる。 |
- それぞれのエージェントは、固有の、他のエージェントが知らない報酬rを設定される
- つまり、他のエージェントをうまく操作して自分の目的を達成しなきゃいけない
![]() |
---|
論文Fig. 6。タスクが複雑になるとボキャブラリも増える。2エージェントで相手の行き先を3択で示すだけ(1x1x3)、2エージェントで相手の行き先か向き先を3択で示す(1x2x3)、3エージェントで相手の行き先と向き先を3択で示す(3x3x3) |
読んだ中での不明点などの感想
- ここから、より複雑な言語を獲得させるにはどのような環境設計をすれば良いのだろう。面白い。
関連論文
- Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
- 同じグループの未来の論文、この論文では扱わなかった、敵対的な問題設定も扱っている