MinerU 是否能提供从pdf_info中提取对应字段的脚本呢

是否能提供从pdf_info中提取对应字段的脚本呢

Open LightingFx opened this issue 2 months ago • 3 comments

感谢各位贡献者提供MinerU项目，他的pdf转换功能是目前用过的最好用。但现在有一个小的需求：我处理的pdf是一些比较大的论文pdf，一般在100-300页。处理完成后，图片、表格以s3的hash命名，我需要提取相应图片信息，但是pdf_info文件太大，我纯靠if去鉴别不同字段是否为空，是否有用，太过于繁琐。请问有没有制作过提取pdf_info数据的一些小脚本呢？或者如何读取这个数据。十分感谢！

Dec 11 '24 03:12 LightingFx

MinerU MinerU copied to clipboard

是否能提供从pdf_info中提取对应字段的脚本呢

MinerU
MinerU copied to clipboard