paper_readings
paper_readings copied to clipboard
Pose Guided Person Image Generation
一枚の画像を背景と見た目のconditionとして加えた、poseからの人物画像生成
論文本体・著者
- Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, Tinne Tuytelaars, Luc Van Gool
- https://arxiv.org/abs/1705.09368
解きたい問題
新規性
- 問題設定自体が新規だが、 #5 や #13 と類似の設定である。1ヶ月で3本とは。。。レッドオーシャンである。。。
- 補足すると、openposeが話題になった時点で皆同時にこの発想に至ったってことですね。実際3本ともopenpose使ってます
実装
![]() |
---|
論文 Fig. 2 より |
![]() |
---|
論文 Fig. 3 より |
- Discriminatorに(生成orデータセット)画像とCondition画像をconcatして入れることで、conditionを反映させる
- 2stageに分ける
- stage1ではL1ロスを使って、ざっくりとポーズが反映されるようにする
- stage2ではadversarial lossを使って、背景と服装の詳細な絵を作る
- Stage1では人間周辺だけでロスをとるようにしてる
- そうしないとぼやける。
- Stage2では差分を出力することで学習がうまく行ってるっぽい。これは他の研究でもそうしたほうがいいかも。Googleの動画生成のやつも差分を出してたはず。
実験・議論
- データセット
- 同じ人物・服装・背景の複数ポーズが必要
- DeepFashion
- Market-1501
- 同じ人物・服装・背景の複数ポーズが必要
読んだ中での不明点などの感想
- 非常に妥当。3本の中で一番読みやすいかも。Stage2の発想もいいですね
関連論文
- #5
- #13
- Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and Xiaoou Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In CVPR, pages 1096–1104, 2016.
- DeepFashionデータセット
- Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. Scalable person
re-identification: A benchmark. In ICCV, pages 1116–1124, 2015.
- Market-1501データセット
- Generating Videos with Scene Dynamics
- Carl Vondrick, Hamed Pirsiavash, Antonio Torralba
- 背景 + フレーム差分 + マスクという問題設定に分けて綺麗に動画生成できるやつ