soneo1127
soneo1127
Are there any plans to release a Japanese model? Thanks,
## 0. 論文 https://arxiv.org/abs/1903.10118 ## 1. どんなもの? 対になるデータがない場合のテキストからの画像生成 ## 2. 先行研究と比べてどこがすごい? ## 3. 技術や手法のキモはどこ? **画像→キャプション** 2つのGenerator 1つは、データセット内の画像からキャプションを生成するために採用されている。 図2(a) GSGANの方法を取り入れて、画像特徴からテキストを生成するためにGumbel-softmaxを利用した。これは、生成されたキャプションからさらなる画像を生成し、学習中に逆誤差伝播を実行するため。 Discriminator VGG16で抽出した画像の特徴と、LSTMで抽出したキャプションの特徴がマッチするか キャプション→画像:図2(b)に示されており、Vinyalsらの方法に基づいている https://arxiv.org/abs/1411.4555 O. Vinyals, A. Toshev, S. Bengio, and...
## 0. 論文 Google Blog: https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html pdf: https://aclweb.org/anthology/P18-1238 ## 1. どんなもの?  ・ネット上のIMGタグのALT属性からキャプションと画像を収集したConceptual Captions datasetを公開 ・Conceptual Captionsと名付けられたこの手法はスケーラビリティが高く応用範囲が広い ## 2. 先行研究と比べてどこがすごい? ・従来のMS-COCOデータセットと比較して一桁多い枚数がある。(3M) ## 3. 技術や手法のキモはどこ? まず、AltテキストのHTML属性を持つWebから画像を取得する 400 px 以下は削除 成人向けテーマなどの望ましくないコンテンツを回避 Google...
## 0. 論文 https://arxiv.org/abs/1504.00325 ## 1. どんなもの? MS COCOの33万枚以上の画像画像について、150万以上のキャプションが提供される。 トレーニングと検証のために、5つの独立した人間が作成したキャプションが提供される。 ## 2. 先行研究と比べてどこがすごい? ## 3. 技術や手法のキモはどこ? ルール設定 •シーンの重要な部分をすべて説明してください。 •"There is"で文を始めないでください。 •重要でない詳細は説明しないでください。 •将来起こる、または過去に起こった可能性があることを説明しないでください。 •人が言うかもしれないことを説明しないでください。 •人々に名前を付けないでください。 •文章には最低8語を含める。 ## 4. どうやって有効だと検証した? 自動字幕生成アルゴリズムの評価における一貫性を保証するために、評価サーバが使用されます。評価サーバーは候補のキャプションを受け取り、BLEU、METEOR、ROUGE、CIDErなどのいくつかの一般的な指標を使用してスコアを付けます。評価サーバーの使用方法が説明されています。 BLEUは機械翻訳のための評価。個々のセンテンスを比較するときにうまく機能しない。...
## 0. 論文 https://arxiv.org/abs/1405.0312 ## 1. どんなもの? 個々のオブジェクトインスタンスをセグメント化するためのデータセットを提供。 ## 2. 先行研究と比べてどこがすごい? 複数のオブジェクトからの、より文脈的な情報が入っている。 ## 3. 技術や手法のキモはどこ? "thing"(はっきりとした物)だけで、"stuff"(ぼんやりしたもの。空など)は含まないようにした。 アノテーションパイプラインは3つの主要なタスクに分割されます (a)画像に存在するカテゴリーのラベル付け (b)ラベル付けされたカテゴリーのすべてのインスタンスの位置の特定とマーキング (c)各オブジェクトインスタンスの分割 MS COCOの各画像に5つのキャプションの説明を追加した。キャプションの統計とそれらがどのように収集されたかについての完全な説明は別の出版物で提供される(え)。 ## 4. どうやって有効だと検証した? (a)MS COCOおよびPASCAL VOCのカテゴリごとの注釈付きインスタンスの数。 (b、c)MS COCO、ImageNet...
## 0. 論文 https://arxiv.org/abs/1601.07140 ## 1. どんなもの? MS COCOという画像データセットを元に、COCO-Textという画像内のテキスト認識のためのデータセットを公開 ## 2. 先行研究と比べてどこがすごい? ・MS COCOは元々テキスト指向で作られたデータセットではないため、COCO-Textはより広い分布の空間的出現を有する legible と illegible (読めるか) English (German, French and Spanish も含む )and not English 機械印刷、手書き、それ以外 などのきめ細かいカテゴリの注釈を付けた。 ・それまでのデータセットよりもはるかに大規模(14倍以上)...