paper_readings
paper_readings copied to clipboard
Synthesizing Images of Humans in Unseen Poses
pose2img系の最新。ポーズ変化は各関節の座標変換であるという手がかりから、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く
論文本体・著者
- Synthesizing Images of Humans in Unseen Poses
- https://arxiv.org/abs/1804.07739v1
- Guha Balakrishnan, Amy Zhao, Adrian V. Dalca, Fredo Durand, John Guttag
- MIT
- CVPR2018
解きたい問題
- より綺麗なpose2img
- ホント流行ったなぁ
新規性
- 背景が同じである画像対を用いて学習すれば、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く事ができる
実装
この論文はこのFig.3を理解することが最重要
-
以下の問題をend-to-endで学習
- 学習データ
- (入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)
- 学習するネットワーク
- A. 画像とポーズから、関節ごとのマスクと、全身(前景)マスクを作る
- セグメンテーションと前景背景分離
- C. ポーズの部分画像から、それを張り合わせた全身画像を作る
- D. 人間が切り抜かれた背景画像をinpainting
- A. 画像とポーズから、関節ごとのマスクと、全身(前景)マスクを作る
- 学習に利用される制約(決定的な計算が行われる部分)
- A. 関節ごとのマスクでもとの画像を切り取れば、関節ごとのセグメンテーション画像になる
- 正確には、その関節に追従する剛体部分(ゴルフクラブは腕に追従する)
- Spatial Transformer Networksを利用
- B. 関節ごとの剛体変形がポーズ変化だから、これを用いて関節セグメンテーション画像(A)を粗く変形することができる
- C,D. ネットワークが出力したマスクを使って画像を切り取り・貼り付ける
- A. 関節ごとのマスクでもとの画像を切り取れば、関節ごとのセグメンテーション画像になる
- 学習データ
-
ちなみにロスはVggの中間層距離 + GAN(バニラ)
実験・議論
![]() |
---|
Fig.9 より |
- UNetとしてるのは、先行研究でよくやられてる、(入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)というUNetを学習する手法
- 直接先行研究と比較してるわけではない
- The UNet often copies appearances from similar poses in the training data rather than moving pixels.
- この考察、面白い
読んだ中での不明点などの感想
- いろんな問題をまとめてend-to-endで学習。綺麗だ。。
- 正直セグメンテーションまでend-to-endで学習しなくても、セグメンテーションは別の手法使ったほうが楽じゃないかな、とは思う。
- STN部分は2Dでの変形しか見てないんですよね。z方向への変形に極端に弱くならないのかな
関連論文
- pose2img
- #13 Skeleton-aided Articulated Motion Generation
- #15 Pose Guided Person Image Generation
- spatial transform
- Spatial Transformer Networks
- https://arxiv.org/abs/1506.02025
- #20 Pose-driven Deep Convolutional Model for Person Re-identification
- Pose+STNという使い方は似てる
- Spatial Transformer Networks