paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Synthesizing Images of Humans in Unseen Poses

Open kogaki opened this issue 6 years ago • 0 comments

pose2img系の最新。ポーズ変化は各関節の座標変換であるという手がかりから、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く

論文本体・著者

  • Synthesizing Images of Humans in Unseen Poses
    • https://arxiv.org/abs/1804.07739v1
    • Guha Balakrishnan, Amy Zhao, Adrian V. Dalca, Fredo Durand, John Guttag
      • MIT
    • CVPR2018

解きたい問題

  • より綺麗なpose2img
    • ホント流行ったなぁ

新規性

  • 背景が同じである画像対を用いて学習すれば、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く事ができる

実装

この論文はこのFig.3を理解することが最重要

image

  • 以下の問題をend-to-endで学習

    • 学習データ
      • (入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)
    • 学習するネットワーク
      • A. 画像とポーズから、関節ごとのマスクと、全身(前景)マスクを作る
        • セグメンテーションと前景背景分離
      • C. ポーズの部分画像から、それを張り合わせた全身画像を作る
      • D. 人間が切り抜かれた背景画像をinpainting
    • 学習に利用される制約(決定的な計算が行われる部分)
      • A. 関節ごとのマスクでもとの画像を切り取れば、関節ごとのセグメンテーション画像になる
        • 正確には、その関節に追従する剛体部分(ゴルフクラブは腕に追従する)
        • Spatial Transformer Networksを利用
      • B. 関節ごとの剛体変形がポーズ変化だから、これを用いて関節セグメンテーション画像(A)を粗く変形することができる
      • C,D. ネットワークが出力したマスクを使って画像を切り取り・貼り付ける
  • ちなみにロスはVggの中間層距離 + GAN(バニラ)

実験・議論

image
Fig.9 より
  • UNetとしてるのは、先行研究でよくやられてる、(入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)というUNetを学習する手法
    • 直接先行研究と比較してるわけではない
  • The UNet often copies appearances from similar poses in the training data rather than moving pixels.
    • この考察、面白い

読んだ中での不明点などの感想

  • いろんな問題をまとめてend-to-endで学習。綺麗だ。。
  • 正直セグメンテーションまでend-to-endで学習しなくても、セグメンテーションは別の手法使ったほうが楽じゃないかな、とは思う。
  • STN部分は2Dでの変形しか見てないんですよね。z方向への変形に極端に弱くならないのかな

関連論文

  • pose2img
    • #13 Skeleton-aided Articulated Motion Generation
    • #15 Pose Guided Person Image Generation
  • spatial transform
    • Spatial Transformer Networks
      • https://arxiv.org/abs/1506.02025
    • #20 Pose-driven Deep Convolutional Model for Person Re-identification
      • Pose+STNという使い方は似てる

kogaki avatar Jun 28 '18 11:06 kogaki