Alvaro Tamura comments

Results 17 comments of


                                            Alvaro Tamura

> 各位开发者好，我是 [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR) 的作者。 > > Umi-OCR 是一个开源的OCR软件，目前正在开发PDF扫描件识别的功能。其中的一个难点在于，OCR得到的文本块的顺序，往往与实际阅读顺序不符合，特别是在多栏布局的文档中。我需要根据文档的排版，正确区分出不同列，按实际阅读顺序为文本块进行排序。 > > pdf2docx 中也涉及一些基于规则的排版解析功能。我浅读了部分代码，这给了我一些启发。 > > 最终，我设计出一个新算法： [GapTree_Sort 间隙树排序法](https://github.com/hiroi-sora/GapTree_Sort_Algorithm) 。它通过寻找文本块之间的间隙，将页面切割为不同的纵向区块，构建出布局树。最后，前序遍历布局树，即可得到符合人类阅读习惯的文本排序。 > > 当然，除了排序文本块，也能通过布局树分析更多排版信息。（不过它不是针对PDF设计的，没有考虑块对象本身附带的标签等信息。） > > pdf2docx 当前的规则匹配，只支持最多2栏、且列宽不能相差太大。 > > 而 GapTree_Sort 支持更复杂的排版情况。如：任意多栏布局(>2)，列宽不一致，跨多列区块等。...

Alvaro Tamura

有计划支持公式的转换吗

关于多栏布局/版面分析的一些探讨

这个项目最大的问题在于数据结构设计

这个项目最大的问题在于数据结构设计

这个项目最大的问题在于数据结构设计

这个项目最大的问题在于数据结构设计

Overloading attribute using computed_field causes unexpected behavior

PDF转docx时文档中带链接的文字全部丢失

Inconsistent Table formatting while conversion

去除页眉页脚的工作