paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Pose Guided Person Image Generation

Open kogaki opened this issue 7 years ago • 0 comments

一枚の画像を背景と見た目のconditionとして加えた、poseからの人物画像生成

論文本体・著者

  • Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, Tinne Tuytelaars, Luc Van Gool
  • https://arxiv.org/abs/1705.09368

解きたい問題

新規性

  • 問題設定自体が新規だが、 #5 や #13 と類似の設定である。1ヶ月で3本とは。。。レッドオーシャンである。。。
    • 補足すると、openposeが話題になった時点で皆同時にこの発想に至ったってことですね。実際3本ともopenpose使ってます

実装

image
論文 Fig. 2 より
image
論文 Fig. 3 より
  • Discriminatorに(生成orデータセット)画像とCondition画像をconcatして入れることで、conditionを反映させる
  • 2stageに分ける
    • stage1ではL1ロスを使って、ざっくりとポーズが反映されるようにする
    • stage2ではadversarial lossを使って、背景と服装の詳細な絵を作る
  • Stage1では人間周辺だけでロスをとるようにしてる
    • そうしないとぼやける。
  • Stage2では差分を出力することで学習がうまく行ってるっぽい。これは他の研究でもそうしたほうがいいかも。Googleの動画生成のやつも差分を出してたはず。

実験・議論

  • データセット
    • 同じ人物・服装・背景の複数ポーズが必要
      • DeepFashion
      • Market-1501

読んだ中での不明点などの感想

  • 非常に妥当。3本の中で一番読みやすいかも。Stage2の発想もいいですね

関連論文

  • #5
  • #13
  • Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and Xiaoou Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In CVPR, pages 1096–1104, 2016.
    • DeepFashionデータセット
  • Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In ICCV, pages 1116–1124, 2015.
    • Market-1501データセット
  • Generating Videos with Scene Dynamics
    • Carl Vondrick, Hamed Pirsiavash, Antonio Torralba
    • 背景 + フレーム差分 + マスクという問題設定に分けて綺麗に動画生成できるやつ

kogaki avatar Jul 24 '17 04:07 kogaki