MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

文档解析的一些 Bad cases

Open yzztin opened this issue 1 year ago • 1 comments

Description of the bug | 错误描述

本 issue 仅提供一些本人遇到的错误解析的 PDF 案例,请不必回复,请开发者自行斟酌是否需要如下 PDF 附件。

也许我会持续更新该 issue 中的 bad cases

在尝试对 “论文” 进行解析的时候,有些文章会出现如下问题:

  1. 标题未正确解析
  2. 双列格式文本未正确识别
  3. 遗漏段落
  4. ......

附件如下,问题已简要写在标题上: ccs-1993-2-标题未识别.pdf ccs-1993-8- 标题未识别.pdf ccs-1993-10-标题未识别.pdf ccs-1993-24-最后一段未识别.pdf ccs-1994-2-双列错误识别.pdf

How to reproduce the bug | 如何复现

解析文件即可

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cuda

yzztin avatar Aug 15 '24 02:08 yzztin

@yzztin We have received your sample, thank you for sharing.

drunkpig avatar Aug 15 '24 02:08 drunkpig