能否支持三栏布局的pdf文档解析
目前版本(0.8.1)解析的pdf文档,如果是三栏布局,解析结果会存在段落错乱的问题,
部分运行日志: 2024-09-14 10:20:35.811 | INFO | magic_pdf.model.pdf_extract_kit:call:289 - formula nums: 2, mfr time: 0.33 2024-09-14 10:20:36.460 | INFO | magic_pdf.model.pdf_extract_kit:call:372 - ocr cost: 0.65 2024-09-14 10:20:36.461 | INFO | magic_pdf.model.pdf_extract_kit:call:407 - table cost: 0.0 2024-09-14 10:20:36.461 | INFO | magic_pdf.model.doc_analyze_by_custom_model:doc_analyze:136 - doc analyze cost: 5.489260673522949 2024-09-14 10:20:36.909 | INFO | magic_pdf.pdf_parse_union_core:pdf_parse_union:242 - page_id: 0, last_page_cost_time: 0.0 2024-09-14 10:20:36.970 | WARNING | magic_pdf.pdf_parse_union_core:parse_page_core:179 - skip this page, page_id: 0, reason: complicated_layout 2024-09-14 10:20:36.971 | INFO | magic_pdf.pdf_parse_union_core:pdf_parse_union:242 - page_id: 1, last_page_cost_time: 0.06 2024-09-14 10:20:37.030 | WARNING | magic_pdf.pdf_parse_union_core:parse_page_core:179 - skip this page, page_id: 1, reason: complicated_layout 2024-09-14 10:20:37.031 | INFO | magic_pdf.pdf_parse_union_core:pdf_parse_union:242 - page_id: 2, last_page_cost_time: 0.06 2024-09-14 10:20:37.051 | WARNING | magic_pdf.pdf_parse_union_core:parse_page_core:186 - skip this page, page_id: 2, reason: too_many_layout_columns 2024-09-14 10:20:37.061 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:145 - 发现了列表,列表行数:[(12, 16)], [[12]] 2024-09-14 10:20:37.061 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:158 - 列表行的第12到第16行是列表 2024-09-14 10:20:37.075 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:145 - 发现了列表,列表行数:[(0, 1)], [[0]] 2024-09-14 10:20:37.075 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:158 - 列表行的第0到第1行是列表 2024-09-14 10:20:37.076 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:145 - 发现了列表,列表行数:[(16, 31)], [[16, 19, 22, 26, 29]] 2024-09-14 10:20:37.076 | INFO | magic_pdf.para.para_split_v2:__detect_list_lines:158 - 列表行的第16到第31行是列表 2024-09-14 10:20:37.076 | INFO | magic_pdf.para.para_split_v2:para_split:766 - 连接了第1页和第2页的段落
目前在做一些布局排序的优化,预计下个大版本更新可以对超过两栏的布局正确排序
目前已经将优化过的排序代码更新在了dev分支,线上可以通过huggingface或modelscope的demo测试效果。
仍然会有问题呢
pdf文档可以上传一下吗
三栏_1730946638.888675_layout.pdf
测试了一下,和你的排序结果略有不同,文档一共5页63个block块,除第2页6号和8号块存在明显顺序问题,其他均正常。排序准确率约为96.9% 由于本模型使用了文本行在空间中的分布信息进行排序,在某些特殊的排版情况下可能会引发排序不准的问题。 模型发布页面可以看到模型在line上的准确率约为97%,在本文档中,共有583条line,排序异常的line为25条,准确率约为95.7%,基本符合该模型的技术指标
仍然会有问题呢