arXivTimes icon indicating copy to clipboard operation
arXivTimes copied to clipboard

Pix2seq: A Language Modeling Framework for Object Detection

Open icoxfog417 opened this issue 4 years ago • 0 comments

一言でいうと

物体検出を言語モデルの枠組みで解いた研究。bounding boxとラベルをテキスト記述とする(位置は連続値であるため、区間(bin)で区切り離散化する)。Encoder/Decoderの構造で、画像をEncodeした結果からDecoderで検出結果記述を生成。Faster R-CNN/DETRと同等精度を達成。

image

論文リンク

https://arxiv.org/abs/2109.10852

著者/所属機関

Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton

  • Google Research,

投稿日付(yyyy/MM/dd)

2021/9/22

概要

新規性・差分

手法

結果

コメント

icoxfog417 avatar Sep 25 '21 09:09 icoxfog417