论文、专利

Open Carringbrinks opened this issue 4 months ago • 2 comments

佬们，关于专利、论文（pdf个格式），书籍（word格式）处理成预训练数据集（分割划分为文本即可）的脚本有参考的吗

Aug 16 '25 14:08 Carringbrinks

pdf的处理是比较麻烦的，请参阅项目首页的“多模态处理工具”。付费工具我们试下来mathpix的效果最好。 word比较复杂，有doc和docx不同的版本，微软在windows环境提供了官方的转码工具，可以找一下。

Aug 18 '25 08:08 esbatmop

专利和论文 PDF 可以参考这个仓库进行基础解析 https://github.com/MIracleyin/docling_parse_mnbvc 核心思路是把 PDF 使用工具结构化，但是存在准确性，多模态（图片、表格）内容丢失问题 word 等 office 格式可以参考 https://github.com/microsoft/markitdown 现代 office 格式本质上是可解析的 xml 文件，因此可以比较准确的获取内容结构

Aug 19 '25 07:08 MIracleyin