paper_readings
paper_readings copied to clipboard
Pose-driven Deep Convolutional Model for Person Re-identification
画像に加えてポーズを入力することでReIDの性能を上げる.そのための複数コンポーネントからなるネットワークの提案.
論文本体・著者
- https://arxiv.org/abs/1709.08325
- Chi Su, Jianing Li, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian
- ICCV'17
解きたい問題
- Person ReIDの性能を上げたい
新規性
- ポーズ推定をReIDに組み込む
実装
- 4つのコンポーネントからなり,それらをまとめてEnd-to-Endに学習する
- Global Stream
- inceptionを基本として,前半部をpart streamと重み共有している
- Part Stream
- Feature Embedding: 画像からパーツ画像に変換する
- 後述
- Feature Weighting: GlobalとPartの結合重みを学習する
- 例えばパーツ認識に失敗した時に,重みが下がることで,Global単体より悪くならないように機能している
- Global Stream
- ロス関数は人物識別の識別問題としてsoftmax cross entropyを用いる
Feature Embedding
- (e) -> (f) のアフィン変換を学習している
-
- 学習ベースの正規化という感じ.Spatial Transformer Networksという先行手法の拡張.
-
実験・議論
- 単純な結合でも性能上がるけど,それぞれのコンポーネントも性能向上に寄与している
- データセット
- CUHK03: 1467人 14096画像
- Market1501: 1501人 32368画像
- VIPeR: 632人 632*2画像
読んだ中での不明点などの感想
- アフィン変換の学習部分,学習率をほかの0.1%にしたと書いてあった.たしかにぜんぜん違うコンポーネント繋げる場合,そういう調整も必要か.厳しい
- ポーズ推定自体を画像から行って,さらにEnd-to-endトレーニングを目指す時に,果たしてサブタスクのポーズ推定を入れることはどう解釈すればいいんだろう.カリキュラム学習の一種?
関連論文
- J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
- ポーズ推定の部分はこれを使ってる
- M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS, 2015.
- アフィン変換部分