PaddleOCR 新增需求征集（Collect Feature Request）

我们将这个Issue 保持开放状态，以收集用户的功能请求并听取您的声音。我们的发布计划将在不同的问题上进行更新。

在这个Issue中，您可以：

通过发表评论来建议新功能。
使用 👍 投票支持功能请求，或者使用 👎 反对。（请记住，我们也许无法响应所有功能请求，因此请投票给您最喜欢的功能请求！）
如果你也愿意参加代码贡献，欢迎参与我们的活动 #10223。
我们会在上述活动的技术研讨会中对需求进行讨论，如果想要参与讨论你觉得重要的需求，欢迎加入上述活动微信群。

We keep this issue open to collect feature requests from users and hear your voice. Our release plan will be updated on different issues.

In this issue, you can either:

Suggest a new feature by leaving a comment.
Vote for a feature request with 👍 or be against it with 👎. (Remember that developers are busy and cannot respond to all feature requests, so vote for your most favorable one!)
Tell us that you would like to help implement one of the features in the list or review the PRs. Welcome to participate in our activity #10223(This is the greatest thing to hear about! )
Join the above WeChat group in the activity link if you want to discuss the new features with us

Jul 10 '23 03:07 shiyutang

范例：需求描述：支持文本识别单字位置分割；支持更多小语种模型；训练语种分类模型；文本识别返回单字置信度等需求场景（这个需求可以解决哪些应用场景的问题）：覆盖小语种的分类场景潜在解决方案（问题分解）：调取小语种数据集进行训练。

example: Description of feature request: Requirement scenarios (what application scenarios can this feature request solve): Potential solutions (problem breakdown):

Jul 10 '23 03:07 shiyutang

需求描述：版面恢复里的功能（恢复为docx或者excel）c++版。需求场景： c++版本可以部署到端侧，实现本地本地化的办公文档扫描。潜在解决方案：版面分析后，使用minidocx创建docx文档，libxlsxwriter生成excel。

Jul 10 '23 03:07 WilliamQf-AI

需求描述：返回单字符坐标。需求场景：文档比对。

Jul 10 '23 03:07 WilliamQf-AI

需求描述：拍照图片矫正模型。需求场景：办公文档扫描时，对倾斜等图片进行类似边缘检测，透视变换等的矫正功能。

Jul 10 '23 03:07 WilliamQf-AI

需求描述：返回单字符坐标。需求场景： ocr 之后 NLP场景需要对应到原图上的文字位置

Jul 10 '23 07:07 EasyIsAllYouNeed

需求描述：一个支持简繁英日的东亚模型需求场景：多语言并存场景下的识别潜在解决方案（问题分解）：

Jul 11 '23 01:07 Frozen1084

需求描述：表格结构提取场景：各种业务场景下的表格，其中包括有线、无线表格潜在解决方案（问题分解）：

Jul 11 '23 06:07 BeyondYourself

需求描述：古籍识别需求场景：繁体字识别来一下？

Jul 11 '23 06:07 livingbody

范例：需求描述：版面矫正网络论文复现：DocTr++: Deep Unrestricted Document Image Rectification 需求场景（这个需求可以解决哪些应用场景的问题）：大量文档进行版面分析之前需要进行光照、扭曲等矫正说明：

通过定量实验和定性对比，作者团队验证了 DocTr++ 的性能优势及泛化性，并在现有及所提出的基准测试中刷新了多项最佳记录，是目前最优的文档矫正方案。
暂时没有预训练权重和训练代码，需要按照论文描述重新训练尝试。潜在解决方案（问题分解）：复现上述论文，代码链接：https://github.com/fh2019ustc/DocTr-Plus

Jul 11 '23 11:07 shiyutang

Scene Text Recognition with Permuted Autoregressive Sequence Models,即parseq 文本识别算法效果不错，有没有在paddleOCR上实现。

Jul 11 '23 12:07 printfxs

需求描述：PaddleOCR与PaddleDetection与Pillow新版本10.x不兼容。目前PaddleOCR采用的临时解决方案是在依赖列表中限制只能使用旧版本Pillow（参见 https://github.com/PaddlePaddle/PaddleOCR/pull/10344 ），而PaddleDetection未采取任何措施（按照文档安装后，使用deploy/python/visualize.py等部分功能时会直接报错）。出于套件可持续建设的考虑，希望能够适配最新版本的Pillow。

需求场景：目前已发现涉及使用字体的相关场景存在此问题。

潜在解决方案：

对于PaddleOCR和PaddleDetection，修改过时的接口名称或参数（例如FreeTypeFont.getsize），替换为等效的API调用；
对于PaddleOCR，去除requirements.txt中Pillow版本的限制。

Jul 12 '23 06:07 Bobholamovic

需求描述：当前ppocrv3模型存在以下问题： 1 字典不全，没有覆盖《通用规范汉字表》 2 对于字典中存在的生僻字，可能因为训练语料不平衡问题，识别效果很差希望： 1 扩充中文字典，覆盖《通用规范汉字表》 2 增加平衡语料，重新训练需求场景：姓名，古文识别等场景

Jul 12 '23 12:07 EasyIsAllYouNeed

需求描述： ocr det 之前增加文档方向检测和矫正过程，支持0,90,180,度的文档，可以作为ppocr命令行参数
需求场景：手机拍照，文档材料数字化自动化场景

Jul 12 '23 13:07 EasyIsAllYouNeed

Scene Text Recognition with Permuted Autoregressive Sequence Models,即parseq 文本识别算法效果不错，有没有在paddleOCR上实现。

@printfxs 我们有集成目前最优的识别模型SVTR @printfxs 我们打算将其作为任务发布了，不知道有没有想法来参与论文复现任务呢，完成任务可以获得小奖品，还可以我们持续交流，解决问题，互相学习哦。

Jul 13 '23 03:07 shiyutang

@BeyondYourself 请看PP-structure中现有功能能否支持：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/README_ch.md#2-%E7%89%B9%E6%80%A7 https://github.com/PaddlePaddle/PaddleOCR/blob/fac03876f39bc67acc8eef6d7facb9a2206eeecd/ppstructure/table/predict_table.py#L58

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/table/README_ch.md

Jul 13 '23 06:07 shiyutang

你好，我基于paddleocr转换了模型，重构了推理代码，可脱离paddlepaddle训练框架，在精度不变的情况下效率和推理速度都提高了：https://github.com/jingsongliujing/OnnxOCR

Jul 13 '23 07:07 jingsongliujing

你好，这个可以提交PR到我们的repo中吗？@jingsongliujing

Jul 13 '23 07:07 shiyutang

你好，这个可以提交PR到我们的repo中吗？@jingsongliujing

后续是这样，但是不知道提交到那个repo

Jul 13 '23 07:07 jingsongliujing

来源：Issue #10404 需求描述：支持更长文本输入（＞512 tokens）的KIE模型需求场景：许多进行KIE的文档都存在大于512 tokens的情况潜在解决方案（问题分解）：现有的KIE模型大多基于MVLM（Masked Visual language Model），与Bert（MLM，Masked language Model）的网络架构相似，可以参考现有的利用Bert进行处理长文本的方法，比如sliding window approach

Jul 17 '23 09:07 ToddBear

paddleocr.py介绍太简单，有点不会用

当前 https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ch/quickstart.md 介绍文档过于简单，建议增加使用介绍。

• 1：增加api使用介绍 • 2：增加命令行使用介绍 • 3：适当增加使用demo

找到了部分： https://gitee.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/whl.md

这个文件名起的很简略，我给忽略没看到。。。。。。

Jul 18 '23 07:07 livingbody

Multilingual OCR Development Plan #1048 There are several support request for new languages with dict and corpus ready. Guidance to retrain the model is provided for contributors. We are calling contributions to add new language support for PaddleOCR.

Jul 19 '23 03:07 onecatcn

paddleocr.py介绍太简单，有点不会用

这个确实存在相关问题，关于PPOCR的参数在下面的文档中：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/inference_args.md

Jul 19 '23 08:07 shiyutang

需求描述：为PaddleOCR增加训练时周期性验证的开关；为PaddleOCR增加eval_epoch_step参数。

需求场景：与PaddleCV的其它基础套件PaddleSeg、PaddleDetection、PaddleClas、Paddle3D等不同，PaddleOCR不支持上述功能，这导致包括但不限于如下问题：

用户有时只想要将模型训练一定的迭代轮数，并不希望在训练时进行精度评估（这可能带来额外的时间开销），而目前PaddleOCR无法优雅地满足这个需求，只能通过设定一个较大的eval_batch_step数值来实现。
更换数据集后，由于数据集大小发生改变，用户往往也需要修改eval_batch_step配置，以使得eval频率合适。
PaddleOCR中实现的是epoch-based trainer，在配置文件中设置的也是epoch_num而不是num_iters，但eval_batch_step却是iters粒度的控制，存在风格不契合的问题。

潜在解决方案：

考虑后向兼容的解决方案：

增加do_eval配置项，可用于关闭训练时周期性验证。默认启用验证，基本维持PaddleOCR现有行为，但希望在训练结束时，即使没有到达eval_step，也进行一次验证（因为有时候eval_step设置不合适，可能会出现指定了do_eval却没有验证的情况，不符合直觉）。
在保留eval_batch_step的情况下，增加eval_epoch_step配置项。关于eval_batch_step与eval_epoch_step之间的关系如何，例如二者互斥或其中一个的优先级更高，我还没有想好，建议开发者从用户使用便利性的角度考虑如何设计。eval_batch_step应当被添加为可选功能，套件的默认行为保持不变。

Jul 20 '23 07:07 Bobholamovic

需求描述：复现论文pidnet 需求场景（这个需求可以解决哪些应用场景的问题）：该模型为轻量化分割方向的前沿模型，超过自研模型ppliteseg精度和速度平衡，进度直逼高精度OCRNet。潜在解决方案（问题分解）：数据和模型、代码均已经开源，可以基于论文复现指南复现上述论文，代码链接：https://github.com/XuJiacong/PIDNet

Jul 20 '23 09:07 shiyutang

需求描述：根据原作者提出的建议，复现论文MobileSAM 需求场景（这个需求可以解决哪些应用场景的问题）：该模型为火爆的SAM模型的加速版本，大大提升了SAM的使用体验，该模型目前已经有2.9k star。潜在解决方案（问题分解）：模型、代码已经开源，只需进行前向对齐即可，可以基于论文复现指南复现上述论文，代码链接：https://github.com/ChaoningZhang/MobileSAM

Jul 20 '23 09:07 shiyutang

需求描述：根据 @printfxs 的建议，复现论文Parseq 需求场景（这个需求可以解决哪些应用场景的问题）：该模型将视觉和语义信息结合，实现精度和速度的双重提升，对比前沿模型SVTR有进一步优势。潜在解决方案（问题分解）：模型、代码、数据集已经开源，可以基于论文复现指南复现上述论文，代码链接：https://github.com/baudm/parseq

Jul 20 '23 10:07 shiyutang

需求描述：识别文档中的数学公式（LaTex）

需求场景：科技技术类的PDF文件往往有很多计算公式，目前没法有效识别，例如下角标等

Jul 24 '23 14:07 archerbj

#10455

Jul 26 '23 04:07 shiyutang

需求描述：支持小语种-藏文

需求场景：对藏文的书籍、文稿进行文字提取

Jul 28 '23 09:07 Zz-ww

需求描述：给 fastdeploy服务化部署的方式提供修改参数的地方，文档没教我也没找到能修改生效的地方。需求场景：我需要限制生成的文本框数量，这个参数max_candidates符合，但是我找不到办法把这参数应用在fastdeploy服务化部署里面。目前我只能对识别结果取限制的数量，有点治标不治本。

Aug 01 '23 10:08 zhouyiminga