PaddleOCR社区常规赛

PaddleOCR社区常规赛是面向所有开发者举办的积分赛事，提供多层次多维度的开放式赛题，并为优秀的社区项目给予物质与精神的多重奖励。基于PaddleOCR进行二次开发的 绝大多数项目或贡献都可通过社区常规赛获得积分与奖励 。我们鼓励开发者实现自己的想法，也希望正在学习中的开发者在常规赛题中找到实现的方向。最终社区项目将会收录在PaddleOCR社区贡献文档中，集中展示PaddleOCR社区生态项目和贡献。

上图为PaddleOCR目前的Contributor，定期更新

0. 社区常规赛说明

0.1 题目类型

该部分包含四类任务，官方将根据项目完成度、质量等综合评分。选手根据每类题目的说明提交相应代码与文档即可。完成多个项目，分值可累加，上不封顶。

代码与文档修补
垂类场景训练与调优
学术前沿模型训练与推理
工具与应用

注意：其中对于Notebook的翻译和概念补充工作，凡是通过核验的提交，作者都会出现在最终电子书的致谢中

0.2 报名与提交

社区常规赛报名与提交需要在本Github issue下回复，按照各项赛题规范进行报名与提交。

注意：报名与提交需要分别评论，如果在报名的评论中提交可能会被错失。直接提交项目也是允许的。

0.3 开放日期与奖励说明

⏰ 第四期开放时间为【7.14 ~ 10.14】
🎁 奖励发放：每季度按照季度内新增积分排名发放奖励，并最终汇入历届常规赛总积分榜。
- 🎖 单季度新增积分大于100，获得PaddleOCR Contributor定制勋章奖杯。新增积分大于30分，获得飞桨官方定制周边礼物。未获得实物奖励的开发者积分将累加到下一季度。
- 👨‍💻 总积分榜大于200，且通过面试申请后，发放更高级别PaddleOCR仓库管理权限，深度参与万星仓库建设。
- 💬 凡是成功提交的开发者都可以加入PaddleOCR Contributor群，在享受上述奖品之外，还可以通过社区研讨会增加与PaddleOCR产研团队的深入交流、获得项目宣传、直播推广、商业线索、峰会邀约等机会。

注意：如果您参与了社区常规赛，但未加入Contributor群，请先加入微信交流群后@本账号

infoflow 2022-06-06 21-10-49

0.4 提供赛题与需求

社区常规赛的题目是持续开放且灵活变化的，我们也非常希望社区或OCR用户提供不在上述四大赛道中的题目或需求。

如果您有新的OCR赛题（包含在给定数据集上调优），可以通过如下格式进行提交。有验收通过后需求提出者同样视情况增加积分。
- 任务类型：提供赛题与需求
- 新任务描述：
- 任务验收标准：
- 【如有】补充资料：
如果您有新的OCR垂类需求（例如增加手写体识别、印章识别等）、新的模型需求、部署需求等，可以通过如下格式进行提交。我们会将需求汇总后在社群中发起投票，优先支持高票需求。当新需求被确认后会视情况增加提出者积分。
- 任务类型：提供赛题与需求
- 需求内容：

0.5 获得赛题支持

使用微信扫描下方二维码，回复关键字【社区常规赛】后即可加入OCR兴趣交流小组，获得专属赛题支持。若您希望提供赛题或需求，也请先加入群聊。

1. 代码与文档修补

PaddleOCR中包含相当丰富的代码功能、文档教程以支持广大开发者便捷清晰的使用。但由于每位用户的情况不同，在代码运行的过程中可能会存在一些没有考虑周全的情况。在阅读文档的过程中可能会认为文档中存在一些表述不清晰、不全面或信息未更新甚至信息有误等情况，进而造成不好的用户体验。同时，Github作为一个国际开发者的聚集地，我们也希望能够提供高质量的英文阅读材料，例如润色英文文档、翻译或补充Notebook。因此希望广大开发者能够帮助PaddleOCR完善代码和文档的不全之处。其中：

代码即PaddleOCR下所有代码文件，主要维护最新的release分支与dygraph分支。
文档指的是PaddleOCR中的所有 .md 文件，主要位于 doc/doc_ch 和 doc/doc_en 中，以最新的release分支与dygraph分支中的文档为主。
Notebook即为OCR十日课中的课件，待每节课结束后会上传到PaddleOCR dygraph分支上，其中翻译的内容包含Notebook中的文字、图片、代码注释等，开发者可选择翻译一篇ipynb中的文字部分，或图片与代码注释部分。推荐使用jupyter notebook启动ipynb文件并进行修改。
电子书是OCR十日课课件的进一步扩充，内容更加完整，未来将会打造为面向OCR开发者的入门书籍。

对于电子书的矫正、翻译、概念补充工作，凡是通过核验的提交，作者都会出现在最终电子书的致谢中永久留念，并获得额外礼物

任务类型	积分	修改文档+PR链接
Notebook与文档翻译（可以机翻+人工润色，符合语言习惯，推荐机翻平台）	每篇Notebook的文字部分完成机翻+5 针对机翻结果进行润色和修改，每条+0~1 其他部分视工作量加分。 md文档每篇完成机翻+4，修改情况同上。修改流程参考下方注意点。	一、英文文档缺失： 1.Doc-VQA：livingbody(PR) 2.KIE ：RangeKing(PR) haigang1975(PR) 3.社区贡献：thunderstudying (PR) 4.附录：thunderstudying (PR) 5.Enhenced CTC: RangeKing(PR) 6.知识蒸馏: WZMIAOMIAO(PR) 二、课程Notebook翻译：地址, RangeKing全部翻译版 1.介绍：技术导论 livingbody翻译版、如何使用:haigang1975(PR) 2.文本检测：理论部分、识别部分 3.文本识别：理论部分、识别部分 4.PP-OCR系统 5.PP-OCR推理与部署 6.文档分析：理论、实战表格、实战VQA
文档修复（如运行错误、文档格式规范参考，文档格式例子参考。缺失文档不属于此题范围）	每个必要的修改点+2	如文档跑通验证：量化、裁剪
英文文档润色（如翻译错误、明显的机翻痕迹等。缺失文档不属于此题范围）	每个必要的修改点+2	fanruinet(PR)
【🌟新】代码修复	每个必要的修改点+2	BeyondYourself (PRs) WZMIAOMIAO (PRs)
【🌟新】FAQ补充与翻译:通过Q/A的形式补充学习或实践过程中的知识点（FAQ翻译需整篇）	每个必要的补充点+2 翻译积分遵循第一项
【🌟新】本赛题说明英文版	翻译积分遵循第一项

注意：

notebook翻译情况会实时更新到表格中，其他开发者可以对已有的翻译结果进行修改和润色，并在comment中指出修改点，方便直接对比。

各类英文文档标题需要首字母大写。

如果你对git 或 PR操作不熟悉，可以参考附录3：Pull Request说明文档，一般情况下提交PR时请提交到dygraph分支上。如果在release2.4分支上有误，请同时PR到两个分支中。

验收标准与内容：

代码修复、Notebook翻译、英文文档润色均为官方人工判断是否成功提交，文档修复任务切实修复错误或符合文档格式规范即可。

任务报名与提交样例：

任务类型：代码与文档修补--报名/提交
代码/文档位置链接：Environment.md
【提交时补充】PR链接

2. 垂类场景训练与调优

OCR垂类场景覆盖各种字体形态（手写、点阵、数码管、艺术字等）与应用对象（文档、车牌、生产包装等）。PP-OCR系列模型虽然是涉及多种场景的通用模型，但难免会在一些场景中的表现不够优异。为了能够让更多开发者直接在自己的垂类场景中使用，同时为入门新手提供垂类场景下的模型调优案例，故开设此赛题。

本赛题要求开发者完成某个具体垂类场景下的模型训练、调优、推理部署工作，具体验收流程如下 验收阶段与积分 所示。最终验收的内容为一份Notebook项目，具体可参考 提交Notebook模板说明。选手提交后将会按照积分统计并公布在积分榜中。

注意：

已经使用PaddleOCR实现的垂类场景应用同样可以按上述内容累计分数，开发者最终输出一份符合提交格式的Notebook即可。如果涉及敏感数据或模型精度问题，可以考虑开源小部分脱敏数据和训练过程中模型，同时如果愿意说明企业可再加10积分。

直接应用PaddleOCR已有的模型且满足业务需求，同样可以提交Notebook项目，只计算 推理部署 和 Notebook项目撰写 两部分的积分。

PaddleOCR开源的内容均为免费，且不会以任何形式收取其他费用，如果想使用商业化产品可以联系我们进行接洽。

验收阶段与积分

阶段	描述	积分【32-92】
通用模型验证+技术抽象	1. 使用 `paddleocr` whl包实验垂类场景下的数据，并查看检测与识别结果。 2. 查看FAQ文档中的垂类实现思路，学习上述场景中的优化思路，确定垂类场景下需要调优的模型（检测/识别）。 3. 完成上述步骤后将预测结果和优化思路填写在问卷中，等待入群获得支持。	+2
数据准备	- 已有标注数据集：可选择开源数据集或将已有的标注数据集开源。 - 仅有数据未标注：可以自己标注，也可发布标注任务召集社群开发者标注（如需召集标注，请在任务报名的数据准备中说明，推荐使用PPOCRLabel标注） - 造识别数据：使用Style-text或text_renderer制造识别数据。	每开源百张未标注数据+1积分。每开源百张标注数据+3积分。每造百张识别数据且开源+1积分。提供新的垂类开源数据集+2积分。本阶段积分上限为30
初步模型训练	按照检测模型或识别模型训练文档开始训练，产生验证结果。预训练模型选择、其他	+10
模型优化	在初步获得的模型结果上通过调整算法、策略或增加数据产生更好的结果。	比原始效果有提升+10
推理部署	将模型转换为推理模型，语言不限，推理部署方式包括Paddle Inference, Paddle Lite, Paddle Serving。	完成部署+10 有交互界面再+10
Notebook项目撰写与总体评价	按照往期范例参考，书写Notebook（注意补充项目背景介绍），同时项目满足上线要求	优秀范例最多+20

提交Notebook模板说明：

项目场景说明：项目简介、适用场景，解决方案、模型工具简介，以及存在的难点
安装说明：安装环境配置、环境要求
数据准备：数据集介绍，包含数据来源、数据Demo、数据格式和字段含义、数据处理为训练格式、文件组织结构
模型选择：套件可选模型介绍、选择适合PP模型介绍与选择思路
模型训练：训练流程、训练代码可修改参数(预处理方法、数据集路径、模型、保存路径等)、单卡/多卡训练模式
模型评估与预测：评估方法介绍、评估代码、以及baseline的指标结果；测试代码，给出测试效果图
模型优化：优化思路(可选参数)、调参方案及结果、给出最优模型方案
模型导出与推理：导出模型代码、文件说明件，推理测速方法、参数含义
模型部署（可选）：部署Demo方案，给出部署链接和效果图

其中模型评估与预测、模型导出与推理部分可以参考文档：检测模型训练、识别模型训练。

任务报名与提交样例：

任务类型：垂类模型调优--报名/提交
任务场景说明与初步技术方案：参考 验收阶段与积分 中的第1步，说明需要提升的模型、实现的方法
【如有】数据准备：开源数据集链接或发布的数据集网盘链接
【提交时补充】项目链接：AI Studio地址

所属行业	垂类场景	数据集	报名与提交
通用	印地语-英语识别	检测数据/识别数据	hao6699(地址)
工业	计量设备检测模型	自行查找	Dream拒杰
能源	电表读数与编号识别	自行查找	edencfc
交通	车牌识别	自行查找	xiaxianlei
教育	标准体公式识别	自行查找
通用	手写识别	自行查找
通用	藏文识别	自行查找
通用	古文识别	自行查找

3. 学术前沿模型训练与推理

PaddleOCR中除了PP-OCR系列模型以外还包含众多学术前沿模型，本题针对这些模型希望开发者在通用数据集上训练与指标调优、打通C++预测。其中：

学术前沿模型包括：检测算法(除SAST)、识别算法、端到端算法PGNet【新】
通用数据集链接为：检测、识别

任务类型	任务描述	参考链接	积分	报名与提交
训练	使用PaddleOCR中的现有算法在通用数据集中适配中文训练，给出精度、速度指标	参考训练文档：检测模型训练、识别模型训练、端到端训练	10-50	OneYearIsEnough(SRN) xiaoyangyang2(StarNet) RangeKing(StarNet)
推理	使用PaddleOCR中的现有算法打通C++预测，给出Python预测和C++预测结果对比	参考文档	10-50

验收标准与内容：

提交Github或AIStudio项目链接+详细的技术实现说明（README或Notebook）。验收标准分别由官方人员从指标、实现过程、文档说明三个角度，在积分范围内打分。

任务报名与提交格式：

任务类型：学术模型--报名/提交
功能描述：XX算法--训练/推理
【提交时补充】项目地址：Github或AIStudio项目链接

4. 工具与应用

OCR应用的形态十分多样，任何基于PP-OCR系列模型的工具、应用界面以及各种部署方式都包含在本题下。

任务类型	任务说明	参考链接	积分【10-100积分】	报名与提交
小工具	基于PaddleOCR能力的拓展工具，如截图OCR、字幕转换工具等	参考	10-100	shaoshenchen(截屏识别) nmusik(pdf扫描) telppa(AutoHotkey) livingbody(pdf2jpg)
小工具	为PPOCRLabel表格标注【🌟新！如选此题请先加入微信群@本账号】	参考	每功能最少10积分	redearly123(PR)
界面	针对PaddleOCR whl包的可视化桌面软件：通过可视化界面完成whl包不同参数的配置，实现零命令使用whl包功能	自行查找	10-100	RangeKing(地址)
界面	【🌟新】适配垂类场景推理的GUI界面	自行查找	10-100
界面	针对PaddleOCR套件的桌面开发软件：通过软件操作完成PaddleOCR套件的训练（数据读取、yml文件配置、训练过程、结果可视化）和所有模型的Python推理（可只实现部分功能）	自行查找	10-100
前处理	应用于OCR场景的前处理工具集：包括但不限于旋转图像矫正、文档边缘识别、腐蚀膨胀、pdf转png，呈现形式可包括脚本使用或界面使用等（可只实现部分功能）	参考	每功能0-10积分	GreatV(地址) RangeKing(地址)
部署	使用PaddleOCR模型的多种部署方式，包括但不限于IOS、安卓、web、开发板等	自行查找	10-100	raoyutian(.NET库) sdcb(.Net/C#) mymagicpower(Java, IOCR) imiyu(json) Lovely-Pig(Streamlit等)
模型	针对OCR场景的文本纠错模型（可选择任意技术路线与模型）	自行查找	10-100
模型	【🌟新】单字检测模型	无	10-100
模型	【🌟新】识别模型输出单字识别准确率或单字位置	无	10-100
模型	基于PaddleOCR套件实现的新算法，包括但不限于检测、识别、端到端、文档相关等	可参考论文复现赛相关指南指导复现，PaddleOCR代码结构说明文档	10-100	bupt906(Micronet) zhiminzhang0830(FCENet) Huntersdeng(ABINet)
比赛	使用PaddleOCR参与并获得名次的比赛	/	10-100

验收标准与内容：

提交Github或AIStudio项目链接+详细的技术实现说明（README或Notebook）。验收标准分别由官方人员从基本效果、技术难度、文档说明三个角度，在积分范围内打分。

任务报名与提交格式：

队伍名：XXX，队伍成员AI Studio昵称：XX
任务类型：工具与应用--报名/提交
功能描述：（描述想要实现的功能）
【提交时补充】项目地址：Github或AIStudio项目链接

说明：

1.上述报名与提交信息仅为部分提交结果，完整版请查看社区贡献文档或本issue下评论

2.赛题提交成功后会根据赛题类型选择是否合入到PaddleOCR，对于代码和文档类的修改需要同时PR到最新的release分支与dygraph分支，以确保开发者获得Contributor title。对于项目类贡献，由于PaddleOCR项目庞大，多数贡献建议PR到社区贡献文档中曝光

3.赛题如有更新请以最新版本为准，PaddleOCR保留最终解释权

Dec 20 '21 14:12 Evezerest

队伍名：redearly，队伍成员AI Studio昵称：qqqqqsaalsj 任务类型：工具与应用--报名功能描述：为PPOCRlabel添加锁定框功能项目地址：https://github.com/redearly123/PaddleOCR

Dec 22 '21 14:12 redearly123

队伍名：iterhui，队伍成员AI Studio昵称：iterhui 任务类型：垂类场景训练与调优--报名功能描述：为OCR垂类场景进行优化，增加字体类型的识别。

Dec 23 '21 06:12 ITerydh

队伍名：thinc AI Studio 昵称：thinc 任务类型：工具与应用-提交功能描述：为 PaddlePaddle-DocCRT 增加截屏识别功能项目地址：https://github.com/fiyen/PaddlePaddle-DocCRT/pull/1

Dec 23 '21 08:12 shaunhurryup

队伍名：超越队队伍成员AI Studio昵称：sdcb 任务类型：工具与应用--部署功能描述：将Paddle推理库、PaddleOCR添加支持.NET/C#调用及部署，且支持同时支持Windows/Linux平台，支持文字检测、文字识别，可以展示识别的区域、识别的分数。项目地址：https://github.com/sdcb/PaddleSharp PR地址：https://github.com/PaddlePaddle/PaddleOCR/pull/5333

Dec 23 '21 15:12 sdcb

队伍名：明月心队，队伍成员AI Studio昵称：raoyutian 任务类型：工具与应用--提交功能描述：本项目是一个基于PaddleOCR的C++代码修改并封装的.NET的类库。包含文本识别、文本检测、基于文本检测结果的统计分析的表格识别功能，同时针对小图识别不准的情况下，做了优化，提高识别准确率。项目封装极其简化，实际调用仅一行代码，极大的方便了中下游开发者的使用和降低了PaddleOCR的使用入门级别，同时提供不同的.NET框架使用，方便各个行业应用开发与部署。项目地址：https://github.com/raoyutian/PaddleOCRSharp 码云地址（较新）：https://gitee.com/raoyutian/paddle-ocrsharp

Dec 24 '21 01:12 raoyutian

队伍名：媛码科技 AI Studio 昵称：imiyu 任务类型：工具与应用-部署和小工具功能描述：基于PaddleOCR封装输出json格式检测结果，包含C#调用例子，方便桌面程序使用paddleOCR 项目地址：https://gitee.com/imiyu/paddleocr-json

Dec 24 '21 11:12 imiyu

队伍名：RangeKing AI Studio昵称：RangeKing

任务类型：文档修复及翻译--提交

文档位置链接：
1. pdseving/README.md + issue链接 https://github.com/PaddlePaddle/PaddleOCR/issues/5018#issue + PR链接 https://github.com/PaddlePaddle/PaddleOCR/pull/5012
2. enhanced_ctc_loss.md + PR链接 https://github.com/PaddlePaddle/PaddleOCR/pull/5012#issue
3. PP-OCRv2预测部署实战.ipynb + PR链接https://github.com/PaddlePaddle/PaddleOCR/pull/5058
4. KIE英文文档翻译 + PR链接 https://github.com/PaddlePaddle/PaddleOCR/pull/5086
5. Enhenced CTC英文文档翻译 + PR链接 https://github.com/PaddlePaddle/PaddleOCR/pull/5086
6. 所有课程Notebook翻译-12篇 + PR链接 https://github.com/PaddlePaddle/PaddleOCR/pull/5367
  截至2022/1/12 11:59 am 修复大量问题（超过1000处），包括但不限于：
  1. 修复缺失标点，统一中英文标点
  2. 修正中文文档一整段话连续使用大量逗号造成阅读体验不佳的问题
  3. 修正英文Notebook Markdown标记
  4. 修正部分Notebook图片没有序号的问题
  5. 为Markdown代码块统一添加语言类型，以显示代码高亮
  6. 修正文本检测理论篇一级标题，统一为本次课程的标题格式
  7. 修正英文Notebook标题首字母大小写问题
  8. 修改部分机翻英文Notebook语法错误
  9. 润色第一章节英文Notebook
  10. 为文档中函数变量和文件路径添加``代码标记
  11. 添加部分超链接使读者方便跳转，如TensorRT
  12. 添加注解并修正paddleocr，PaddleOCR，paddleocr whl包等名词的大小写问题
  13. 修复图标题缺失问题
  14. 统一图标题格式为 Figure [index]: 图名

任务类型：工具与应用-界面、小工具--提交

功能描述：针对PaddleOCR whl包的可视化截图OCR桌面软件：通过可视化界面完成whl包不同参数的配置，实现零命令使用whl包功能。目前可更改1.识别语言、2.是否启用GPU、3.是否启用方向分类器设置，并具有4.段落处理和5.标点处理两项文本后处理功能，可以设置6.是否开启后处理窗口。
项目地址：https://github.com/RangeKing/PaddleOCR-Quicker

任务类型：工具与应用-前处理--提交

功能描述：应用于OCR场景的前处理工具集（可视化界面），目前实现10项功能：1.文档边缘自动识别、2.文档边缘人工识别、3.文字增强（降噪）、4.旋转图像、5.腐蚀、6.膨胀、7.二值化、8.边缘检测、9.pdf转png、10.反色。
项目地址：https://github.com/RangeKing/OCR_preprocessing_tool

任务类型：工具与应用-PPOCRLabel新增功能--提交

功能描述：为PPOCRLabel的图像旋转、重新识别、识别图像保存等功能模块增加中文路径支持
PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5151
BUG反馈：PPOCRLabel标注使用中文输入法异常
issue链接：https://github.com/PaddlePaddle/PaddleOCR/issues/5148

任务类型：学术模型--提交

项目描述：StarNet算法--不同Backbone中文数据集训练精度对比
项目地址：https://aistudio.baidu.com/aistudio/projectdetail/3346414

任务类型：垂类模型调优--提交

项目描述：毛笔字识别-使用PaddleOCR对text_renderer合成的毛笔字数据集进行识别训练及精度验证
毛笔字识别开源数据集：https://aistudio.baidu.com/aistudio/datasetdetail/123917
项目地址：https://aistudio.baidu.com/aistudio/projectdetail/3371203
多字体识别开源数据集：包含300多种中文字体的OCR数据集demo - https://aistudio.baidu.com/aistudio/datasetdetail/123917

任务类型：工具与应用-比赛--提交

比赛名称：飞桨常规赛：中文场景文字识别
排行榜：2022年1月第2名(截至2022/1/12 11:59 am) - https://aistudio.baidu.com/aistudio/competition/detail/20/0/leaderboard

Dec 24 '21 12:12 RangeKing

队伍名：wzmiaomiao，队伍成员AI Studio昵称：你不会懂TOT

任务类型：PaddleOCR读取特殊图像的解决办法
功能描述：解决opencv读取gif文件为None，以及部分图片报Corrupt JPEG data的问题
PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5053
issue链接：https://github.com/PaddlePaddle/PaddleOCR/issues/5029

任务类型：修复Parsing line Error bug
功能描述：在训练检测网络时对于有些特别小的目标区域（或者说标注有问题的数据），通过pyclipper收缩后得到的result是一个空列表，引发Error。
issue链接：https://github.com/PaddlePaddle/PaddleOCR/issues/5101
PR链接： https://github.com/PaddlePaddle/PaddleOCR/pull/5131

任务类型：文档翻译
功能描述：英译知识蒸馏文档knowledge_distillation.md，并给对应中文版本的文档添加目录，以及修正部分序号标错的问题。
PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5118

任务类型：文档修复
功能描述：修复文档中多处使用opencv读取图片，然后直接使用plt.imshow的方式进行可视化的问题（中间漏了一步将BGR转RGB的过程）
PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5122

Dec 25 '21 09:12 WZMIAOMIAO

队伍名：AIAS，队伍成员 Calvin AI Studio昵称：Calvin.T 任务类型：工具与应用--部署，界面，工具

OCR java SDK 工具箱功能描述: Github地址： https://github.com/mymagicpower/AIAS/blob/main/1_image_sdks/text_recognition/ocr_sdk/README.md 功能说明：方向检测，图片旋转，文字识别，版面分析，表格识别，生成html表格，生成excel文件
IOCR 功能描述: Github地址： https://github.com/mymagicpower/AIAS/blob/main/8_suite_hub/iocr/README.md 功能说明：一般OCR的识别结果是一种按行识别的结构化输出，能够给出一行文字的检测框坐标及文字内容。但是我们更想要的是带有字段定义的结构化输出，由于表单还活着卡证的多样性，全都预定义好是不现实的。所以，设计了自定义模板的功能，能够让人设置参照锚点（通过锚点匹配定位，图片透视变换对齐），以及内容识别区来得到key-value形式的结构化数据。

当前精简试用版(无数据库，redis等)包含了下面功能：模板自定义基于模板识别自由文本识别表格文本识别（图片需是剪切好的单表格图片）表格自动检测文本识别（支持表格文字混编，自动检测表格识别文字，支持多表格）（需要图片都是摆正的，即没有旋转角度。）

Dec 25 '21 14:12 mymagicpower

队伍名：Jordan2020 AI Studio昵称：Jordan2020 任务类型：工具与应用--小工具项目名称：斗图：PaddleOCR玩坏了项目地址： https://aistudio.baidu.com/aistudio/projectdetail/3282716?contributionType=1 功能说明：基于PaddleOCR Style-Text数据合成工具，生成斗图GIF,可用CPU跑。

Dec 26 '21 09:12 jordan2013

任务类型：文档修复--报名计划翻译文档：Doc-VQA\ KIE

Dec 28 '21 14:12 yazheng0307

队伍名：IWIN-dgw，队伍成员AI Studio昵称：Hunter122 任务类型：工具与应用 -- 报名&提交功能与描述：ABINet论文复现《Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition》项目地址：https://github.com/Huntersdeng/abinet-paddle

Dec 29 '21 01:12 Huntersdeng

任务类型：Notebook与文档翻译--提交

文档翻译： doc/doc_en/community_contribution_en.md doc/doc_en/code_and_doc.md

文档修复: doc/doc_ch/code_and_doc.md

PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5119

Dec 29 '21 08:12 thunderstudying

队伍名：zzm，队伍成员AI Studio昵称：zzm_5309 任务类型：工具与应用 -- 模型&比赛 -- 报名&提交功能与描述：FCENet论文复现《Fourier Contour Embedding for Arbitrary-Shaped Text Detection》，参与论文复现赛：https://github.com/PaddlePaddle/Paddle/issues/37401 项目地址：https://github.com/zhiminzhang0830/FCENet_Paddle

Dec 29 '21 09:12 zhiminzhang0830

任务类型：文档修复--报名/提交

文档位置链接：https://github.com/livingbody/PaddleOCR/blob/develop/doc/doc_ch/customize.md
文档修复: https://github.com/PaddlePaddle/PaddleOCR/pull/5002

Dec 29 '21 16:12 livingbody

队伍名:zhaojie123 AI Studio昵称：Dream拒杰任务类型：垂类场景训练与调优功能描述：使用通用模型无法较好检测各种计量设备的显示屏的显示内容，提供自己制作数据集，其中包括测试集236张，训练集468张。各类显示屏类型和型号还在不断完善中。目前较好实现检测功能，识别根据后面开发需求而定。使用了《动手学OCR · 十讲》所讲调优策略，hmean提升5%左右项目地址：https://aistudio.baidu.com/aistudio/projectdetail/3284199?shared=1

Dec 30 '21 01:12 zhangyingying520

notebook项目基于PaddleOCR的轻量级文字识别技术创新大赛Baseline https://aistudio.baidu.com/aistudio/projectdetail/3294343

Dec 30 '21 06:12 livingbody

队伍名：深渊上的坑，队伍成员AI Studio昵称：深渊上的坑任务类型：工具与应用--报名功能描述：电表读数和编号识别

Dec 31 '21 05:12 edencfc

notebook项目基于PaddleOCR2.4的【常规赛：中文场景文字识别】Baseline https://aistudio.baidu.com/aistudio/projectdetail/3370465

Jan 01 '22 09:01 livingbody

任务类型：notebook与文档翻译

功能描述：Doc-VQA的英文文档

PR链接： #5149 https://github.com/PaddlePaddle/PaddleOCR/pull/5149

Jan 01 '22 13:01 livingbody

任务类型：修复预测结果输出格式

功能描述：第140行 fout.write(file + "\t" + info) 改为 fout.write(file + "\t" + info + "\n") 原代码保存结果没有换行，格式各记录粘在一起了。

PR链接： #5149 https://github.com/PaddlePaddle/PaddleOCR/pull/5149

Jan 01 '22 13:01 livingbody

任务类型：notebook与文档翻译纠错

功能描述：纠正一点错误

PR链接：#5083

Jan 01 '22 13:01 Kongsea

任务类型：基于PaddleOCR2.4的天池街景字符编码识别Baseline

功能描述：基于PaddleOCR2.4的天池街景字符编码识别Baseline

PR链接：基于PaddleOCR2.4的天池街景字符编码识别Baseline

Jan 02 '22 06:01 livingbody

任务类型：Notebook与文档翻译--报名/提交 KIE english 功能描述：KIE 文档英文版 PR 链接： https://github.com/PaddlePaddle/PaddleOCR/pull/5155#

任务类型：Notebook与文档翻译--报名/提交功能描述：Notebook 1.介绍：技术导论、如何使用翻译英文 PR 链接： https://github.com/PaddlePaddle/PaddleOCR/pull/5208 功能描述：Notebook 2 文本检测：文本检测实践篇 PR 链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5230

队伍名：Dream haigang，队伍成员AI Studio昵称：haigang 任务类型：垂类场景训练与调优--报名功能描述：基于PaddleOCR的车牌识别项目地址：https://aistudio.baidu.com/aistudio/projectdetail/3399194

Jan 03 '22 10:01 haigang1975

任务类型：垂类模型调优

Jan 04 '22 02:01 Lily1992

队伍名：prettyocean85，队伍成员AI Studio昵称：prettyocean85 任务类型：工具与应用--报名/提交功能描述：添加C++预测，批量识别代码 PR 链接： #1092

Jan 04 '22 08:01 prettyocean85

队伍名：prettyocean85，队伍成员AI Studio昵称：prettyocean85 任务类型：工具与应用--报名/提交功能描述：添加C++预测，批量识别代码 PR 链接： #1092

Jan 04 '22 08:01 prettyocean85

队伍名：bupt906 AI Studio昵称：bupt906 任务类型：工具与应用--提交功能描述：为PaddleOCR贡献超轻量网络Micronet PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5169

Jan 05 '22 09:01 bupt906

队伍名：bupt906 AI Studio昵称：bupt906 任务类型：工具与应用--提交功能描述：为PaddleOCR贡献OneCycle学习率策略 PR链接：https://github.com/PaddlePaddle/PaddleOCR/pull/5171

Jan 05 '22 09:01 bupt906

任务类型：基于PaddleOCR2.0 Windows平台 C# 部署教程

功能描述：Windows平台下PaddleOCR C#部署

链接：https://github.com/chccc1994/PaddleOCR-Csharp-Deploy

Jan 05 '22 11:01 chccc1994