自然场景文本识别数据集

Open yan647 opened this issue 8 years ago • 1 comments

参考：http://blog.csdn.net/peaceinmind/article/details/51387367

ICDAR数据集

ICDAR大赛组委会自2003年起公布了自然场景文本数据库，直到2015年该数据库已包括文本定位数据库、文本分割数据库、单词识别数据库、端对端识别数据库。图像都是是24位彩色图像，大小是1024*768像素。

SCUT-FORU-DB数据库。

该数据库由张树业[1 ]构建，该数据库是一个中英文场景文本检测和识别数据库。该数据库包括3931幅图像，并标注了55209个字符或单词实例。论文中提供的两个网址暂时都不能使用，其github网址：https://github.com/HCIILAB/SCUT_FORU_DB_Release（截至2017.03.15还未再提供新的网址）

COCO-Text (ComputerVision Group, Cornell)

来源：https://vision.cornell.edu/se3/coco-text/ 2016提出的数据库，包括63686幅图像，173589个文本实例，三种细粒度的文本属性。文本实例包括手写版和打印版，清晰版和非清晰版，英文版和非英文版。

Synthetic Data for Text Localisation in Natural Image (VGG)

来源：https://github.com/ankush-me/SynthText 是在复杂背景下人工合成的自然场景文本数据，可以清楚的指定文字的标签信息以及位置，不需要人工标注。

Synthetic Word Dataset (Oxford, VGG)

来源：http://www.robots.ox.ac.uk/~vgg/data/text/ 包括9百万幅图像涵盖了90k个英文单词

IIIT 5K-Words

来源：http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html 来自谷歌图像搜索，包括5000幅图像，这些图像中包括了自然场景图像和原生数字图像。图像中包括广告牌、招牌、房屋号码、房屋铭牌和电影海报等内容。数据集分为训练集合测试集。数据集提供50多万个词典单词。

StanfordSynth(Stanford, AI Group)

来源：http://cs.stanford.edu/people/twangcat/#research 包括62个字符（0-9，a-z，A-Z）的单字符小图像。

MSRA Text Detection 500 Database(MSRA-TD500)

来源：http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500) 包含多方向、多语言文字的图像数据集，文本涉及的语种包括中文、英文、两者的混合。数据集包括500幅自然场景图像，图像分辨率结语1296864到19201280之间。

Street View Text (SVT)

来源：http://tc11.cvc.uab.es/datasets/SVT_1 所有图像源于Google Street View，图像分辨率较低，文字变化较大。图像是24位彩色图像，像素大小是1260*860，文件格式为JPEG。包括350幅高分辨率图像，其中100张图像用于训练，250张图像用于测试，每幅图像都用一个文本向量表示其中包含的文字信息。

KAIST Scene_Text Database

来源：http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database 包括3000张室内和室外的场景图像，图像中包含韩语、英语（数字）和混合（韩语、英语、数字）的语言。

Chars74k

来源：http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ 是一个经典的字符识别数据集，主要包括英文字符和坎那达语（kannada）字符。包括72k幅图像。包括自然场景图像和人工合成的图像

Oriented Scene Text Database(OSTD)数据集

来源：Yi,Tian Y L. Text string detection from natural scenes by structure-based partition and grouping. IEEE Transactions on Image Processing(TIP),2011,20(9):2594-2605. 包括89幅不同方向的文字的图像。

USTB-SV1K

来源：http://prir.ustb.edu.cn/TexStar/MOMV-text-detection/ 来自USTB Street View。包括1000幅多方向、多视角的图像。每张图像的分辨率是512*512。

参考文献：

[1] 张树业. 深度模型及其在视觉文字分析中的应用[D].华南理工大学,2016.

Feb 21 '17 12:02 yan647

@yan647 You can try https://pan.baidu.com/s/1bprajkN for downloading SCUT-FORU-DB.

Aug 08 '17 15:08 shuye-cheung

Blog Blog copied to clipboard

自然场景文本识别数据集

ICDAR数据集

SCUT-FORU-DB数据库。

COCO-Text (ComputerVision Group, Cornell)

Synthetic Data for Text Localisation in Natural Image (VGG)

Synthetic Word Dataset (Oxford, VGG)

IIIT 5K-Words

StanfordSynth(Stanford, AI Group)

MSRA Text Detection 500 Database(MSRA-TD500)

Street View Text (SVT)

KAIST Scene_Text Database

Chars74k

Oriented Scene Text Database(OSTD)数据集

USTB-SV1K

参考文献：

Blog
Blog copied to clipboard