paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

Pose-driven Deep Convolutional Model for Person Re-identification

Open kogaki opened this issue 7 years ago • 0 comments

画像に加えてポーズを入力することでReIDの性能を上げる.そのための複数コンポーネントからなるネットワークの提案.

論文本体・著者

  • https://arxiv.org/abs/1709.08325
  • Chi Su, Jianing Li, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian
  • ICCV'17

解きたい問題

  • Person ReIDの性能を上げたい

新規性

  • ポーズ推定をReIDに組み込む

実装

image

  • 4つのコンポーネントからなり,それらをまとめてEnd-to-Endに学習する
    • Global Stream
      • inceptionを基本として,前半部をpart streamと重み共有している
    • Part Stream
    • Feature Embedding: 画像からパーツ画像に変換する
      • 後述
    • Feature Weighting: GlobalとPartの結合重みを学習する
      • 例えばパーツ認識に失敗した時に,重みが下がることで,Global単体より悪くならないように機能している
  • ロス関数は人物識別の識別問題としてsoftmax cross entropyを用いる

Feature Embedding

image

  • (e) -> (f) のアフィン変換を学習している
    • image
    • 学習ベースの正規化という感じ.Spatial Transformer Networksという先行手法の拡張.

実験・議論

image

  • 単純な結合でも性能上がるけど,それぞれのコンポーネントも性能向上に寄与している
  • データセット
    • CUHK03: 1467人 14096画像
    • Market1501: 1501人 32368画像
    • VIPeR: 632人 632*2画像

読んだ中での不明点などの感想

  • アフィン変換の学習部分,学習率をほかの0.1%にしたと書いてあった.たしかにぜんぜん違うコンポーネント繋げる場合,そういう調整も必要か.厳しい
  • ポーズ推定自体を画像から行って,さらにEnd-to-endトレーニングを目指す時に,果たしてサブタスクのポーズ推定を入れることはどう解釈すればいいんだろう.カリキュラム学習の一種?

関連論文

  • J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
    • ポーズ推定の部分はこれを使ってる
  • M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS, 2015.
    • アフィン変換部分

kogaki avatar Oct 16 '17 06:10 kogaki