OCR_Survey
OCR_Survey copied to clipboard
OCR调研-会议&数据集
OCR调研
OCR目前有三大任务,分别为文本识别,文本检测以及端到端End2End识别,三个任务的分布情况如下图。
近几年OCR任务的解决方案主要围绕深度学习展开,如下图论文数量变化。
文本检测
- 论文根据发布时间排列
- IC为ICDAR会议
- Score是文本定位任务的F1-Score
- (L) 代表分数 leader-board
- (L) 目的是区分报道的分数和实际分数的不同
-
*CODE
指提供源码,CODE(M)
指提供训练好的模型
文本识别
- Score是识别任务中的单词准确率
端到端文本识别
- Score 是一般任务的F1-Score
其他会议和论文
论文和代码
综述
- Scene Text Detection and Recognition:The Deep Learning Era
- Scene text detection and recognition: recent advances and future trends
- Deep Neural Networks for Scene Text Reading (IC17 Keynote)
- Oriented Scene Text Detection Revisited (VALSE17 Invited Talk)
- Scene Text Detection and Recognition (Joint course of Megvii Inc. & Peking Univ.)
- Classic Text Detectors
按年份分
- 2019-present
- 2015-2018
- 2011-2014
- before-2010
按任务分
- overview
- text-detection
- text-recognition
- text-segmentation
- end-to-end-ocr
- video-ocr
- document-image-unwarping
按会议和期刊分
- CVPR: IEEE Conference on Computer Vision and Pattern Recognition
- NIPS: Neural Information Processing Systems
- ECCV: European Conference on Computer Vision
- ICCV: International Conference on Computer Vision
- ICLR: International Conference on Learning Representations
- AAAI: Association for the Advancement of Artificial Intelligence
- IJCAI: International Joint Conference on Artificial Intelligence
- BMVC: British Machine Vision Conference
- ICPR: International Conference on Pattern Recognition
- ICDAR: International Conference on Document Analysis and Recognition
- TPAMI: IEEE Transactions on Pattern Analysis and Machine Intelligence
- IJCV: International Journal of Computer Vision
- TIP: IEEE Transactions on Image Processing
- TMM: IEEE Transactions on Multimedia
数据集
- ICDAR会议基准数据集
- 自然场景数据集
- 人工数据集
- 不规则文本数据集
- 单词/字符数据集
- 视频数据集
- 其他
数据集对比
数据集(年份) | 图片数量 (train/test) | 文本数量 (train/test) | 文字方向 | 语言 | 特点 | 文本检测/识别 任务 |
---|---|---|---|---|---|---|
End2End | ==== | ==== | ==== | ==== | ==== | ==== |
ICDAR03 (2003) | 509 (258/251) | 2276 (1110/1156) | 水平 | En | - | ✓/✓ |
ICDAR13 Scene Text(2013) | 462 (229/233) | - (848/1095) | 水平 | En | 自然场景 | ✓/✓ |
ICDAR15 Incidental Text(2015) | 1500 (1000/500) | - (-/-) | 多方向 | En | 图片模糊且非刻意拍摄 | ✓/✓ |
ICDAR17 / RCTW (2017) | 12263 (8034/4229) | - (-/-) | 多方向 | Cn | 手机相机拍摄,手机屏幕截图 | ✓/✓ |
CoCo-Text v2.0 (2019) | 63686 (-/-) | 239506 (-/-) | 多方向 | En | 在线数据集,标注详细 | ✓/✓ |
Total-Text (2017) | 1555 (1255/300) | 11459 (-/-) | 多方向, 弯曲 | En, Cn | 文本不规则,使用多边形标注 | ✓/✓ |
SVT (2010) | 350 (100/250) | 904 (257/647) | 水平 | En | 谷歌街景 | ✓/✓ |
KAIST (2010) | 3000 (-/-) | 5000 (-/-) | 水平 | En, Ko | 数据集分类详细 | ✓/✓ |
NEOCR (2011) | 659 (-/-) | 5238 (-/-) | 多方向 | 8 langs | 自然场景 | ✓/✓ |
CTW (2017) | 32K ( 25K/6K) | 1M ( 812K/205K) | 多方向 | Cn | 中文街景,图片高清,标注详细 | ✓/✓ |
CASIA-10K (2018) | 10K (7K/3K) | - (-/-) | 多方向 | Cn | 场景文本检测 | ✓/✓ |
SDTL (2016) | 自定(-/-) | 90k(-/-) | 水平 | - | 在自然场景图片内人工合成文本,提供源码 | ✓/√ |
仅文本检测 | ==== | ==== | ==== | ==== | ==== | ==== |
MSRA-TD500 (2012) | 500 (300/200) | 1719 (1068/651) | 多方向 | En, Cn | 自然场景 | ✓/- |
ICDAR17 / RRC-MLT (2017) | 18000 (9000/9000) | - (-/-) | 多方向 | 9 langs | 自然场景 | ✓/- |
SCUT-CTW1500 (2017) | 1500 (1000/500) | - (-/-) | 多方向,弯曲 | En,Cn | 用于各种形状的文本检测 | ✓/- |
仅文本识别 | ==== | ==== | ==== | ==== | ==== | ==== |
Char74k (2009) | 74107 (-/-) | 74107 (-/-) | 水平 | En, Kannada | 全部为单字符 | -/✓ |
IIIT 5K-Word (2012) | 5000 (-/-) | 5000 (2000/3000) | 水平 | - | 字符边缘有干扰 | -/✓ |
SVHN (2010) | 99290 (73258/26032) | (-/-) | 水平 | - | 全部为街景中的数字图片 | -/✓ |
SWD (2014) | 900w (-/-) | 90k(-/-) | 水平 | - | 全部为人工合成的文本 | -/✓ |