Blog icon indicating copy to clipboard operation
Blog copied to clipboard

自然场景文本识别数据集

Open yan647 opened this issue 8 years ago • 1 comments

参考:http://blog.csdn.net/peaceinmind/article/details/51387367

ICDAR数据集

ICDAR大赛组委会自2003年起公布了自然场景文本数据库,直到2015年该数据库已包括文本定位数据库、文本分割数据库、单词识别数据库、端对端识别数据库。图像都是是24位彩色图像,大小是1024*768像素。

SCUT-FORU-DB数据库。

该数据库由张树业[1 ]构建,该数据库是一个中英文场景文本检测和识别数据库。该数据库包括3931幅图像,并标注了55209个字符或单词实例。论文中提供的两个网址暂时都不能使用,其github网址:https://github.com/HCIILAB/SCUT_FORU_DB_Release(截至2017.03.15还未再提供新的网址)

COCO-Text (ComputerVision Group, Cornell)

来源:https://vision.cornell.edu/se3/coco-text/ 2016提出的数据库,包括63686幅图像,173589个文本实例,三种细粒度的文本属性。文本实例包括手写版和打印版,清晰版和非清晰版,英文版和非英文版。

Synthetic Data for Text Localisation in Natural Image (VGG)

来源:https://github.com/ankush-me/SynthText 是在复杂背景下人工合成的自然场景文本数据,可以清楚的指定文字的标签信息以及位置,不需要人工标注。

Synthetic Word Dataset (Oxford, VGG)

来源:http://www.robots.ox.ac.uk/~vgg/data/text/ 包括9百万幅图像涵盖了90k个英文单词

IIIT 5K-Words

来源:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html 来自谷歌图像搜索,包括5000幅图像,这些图像中包括了自然场景图像和原生数字图像。图像中包括广告牌、招牌、房屋号码、房屋铭牌和电影海报等内容。数据集分为训练集合测试集。数据集提供50多万个词典单词。

StanfordSynth(Stanford, AI Group)

来源:http://cs.stanford.edu/people/twangcat/#research 包括62个字符(0-9,a-z,A-Z)的单字符小图像。

MSRA Text Detection 500 Database(MSRA-TD500)

来源:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500) 包含多方向、多语言文字的图像数据集,文本涉及的语种包括中文、英文、两者的混合。数据集包括500幅自然场景图像,图像分辨率结语1296864到19201280之间。

Street View Text (SVT)

来源:http://tc11.cvc.uab.es/datasets/SVT_1 所有图像源于Google Street View,图像分辨率较低,文字变化较大。图像是24位彩色图像,像素大小是1260*860,文件格式为JPEG。包括350幅高分辨率图像,其中100张图像用于训练,250张图像用于测试,每幅图像都用一个文本向量表示其中包含的文字信息。

KAIST Scene_Text Database

来源:http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database 包括3000张室内和室外的场景图像,图像中包含韩语、英语(数字)和混合(韩语、英语、数字)的语言。

Chars74k

来源:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ 是一个经典的字符识别数据集,主要包括英文字符和坎那达语(kannada)字符。包括72k幅图像。包括自然场景图像和人工合成的图像

Oriented Scene Text Database(OSTD)数据集

来源:Yi,Tian Y L. Text string detection from natural scenes by structure-based partition and grouping. IEEE Transactions on Image Processing(TIP),2011,20(9):2594-2605. 包括89幅不同方向的文字的图像。

USTB-SV1K

来源:http://prir.ustb.edu.cn/TexStar/MOMV-text-detection/ 来自USTB Street View。包括1000幅多方向、多视角的图像。每张图像的分辨率是512*512。

参考文献:

[1] 张树业. 深度模型及其在视觉文字分析中的应用[D].华南理工大学,2016.

yan647 avatar Feb 21 '17 12:02 yan647

@yan647 You can try https://pan.baidu.com/s/1bprajkN for downloading SCUT-FORU-DB.

shuye-cheung avatar Aug 08 '17 15:08 shuye-cheung