paper_readings
paper_readings copied to clipboard
Discovery of Latent 3D Keypoints via End-to-end Geometric Reasoning
教師なし学習で2D画像から3Dのkeypointを取り出す。学習には同一物体を他の視点から撮影したペアを用いる
論文本体・著者
- https://keypointnet.github.io/
- Supasorn Suwajanakorn Noah Snavely Jonathan Tompson Mohammad Norouzi
- Google AI
解きたい問題
新規性
- 2D画像から3Dkeypointまでをend-to-endで教師なしで学習した
- 剛体変形によるロスをうまく取り入れて、視点変更に頑健なkeypointを得ることができる
実装
![]() |
---|
論文 Fig. 1 より |
- 学習時の入力は、(視点1からの画像I, 視点2からの画像I', その2つの間の剛体変形T)
- Multi-view Consistency: 真の変形Tを利用して、P1をP2に移動したもの、P2をP1に移動したものを計算し、その間の距離をロスとする
- Relative pose estimation: 逆に、P1とP2からプロクラステス分析を用い、剛体の回転R^を推定し、真のRと近づくようにする
実験・議論
- ネットワークはCNNを積んだ後に、最後にNチャンネルの"keypoint確率マップ"を出す
- ポーズ推定のやり方にかなり近い
- 学習はShapeNetからレンダリングした画像を用いる
読んだ中での不明点などの感想
- 真のTがわからない状態や、IとI'が厳密なペアじゃない問題への拡張が今後出てくると思う
- 学習時に真のTを使うのは、実環境への拡張のときにこまるし