nlp-survey-text2image
nlp-survey-text2image copied to clipboard
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images
0. 論文
https://arxiv.org/abs/1601.07140
1. どんなもの?
MS COCOという画像データセットを元に、COCO-Textという画像内のテキスト認識のためのデータセットを公開
2. 先行研究と比べてどこがすごい?
・MS COCOは元々テキスト指向で作られたデータセットではないため、COCO-Textはより広い分布の空間的出現を有する
legible と illegible (読めるか) English (German, French and Spanish も含む )and not English 機械印刷、手書き、それ以外 などのきめ細かいカテゴリの注釈を付けた。 ・それまでのデータセットよりもはるかに大規模(14倍以上)
3. 技術や手法のキモはどこ?
予算が限られている場合の、人員へのタスク割り当てを最適化するための戦略を提案。 OCRとクラウドワーカー(Mechanical Terk)の同時使用
4. どうやって有効だと検証した?
アノテーションの質はエキスパートアノテーター(この論文の共著者)が評価 クラウドワーカーのアノテーターは全テキスト領域の57%を検出していた。特に、判読可能なテキストの84%と判読不能なテキストの39%を検出しています。
5. 議論はある?
人間でも画像中の文字認識は難しい。
6. 次に読むべき論文は?
Microsoft COCO: Common Objects in Context https://arxiv.org/abs/1405.0312