MinerU
MinerU copied to clipboard
是否能提供从pdf_info中提取对应字段的脚本呢
感谢各位贡献者提供MinerU项目,他的pdf转换功能是目前用过的最好用。但现在有一个小的需求: 我处理的pdf是一些比较大的论文pdf,一般在100-300页。处理完成后,图片、表格以s3的hash命名,我需要提取相应图片信息,但是pdf_info文件太大,我纯靠if去鉴别不同字段是否为空,是否有用,太过于繁琐。请问有没有制作过提取pdf_info数据的一些小脚本呢?或者如何读取这个数据。十分感谢!