MNBVC icon indicating copy to clipboard operation
MNBVC copied to clipboard

论文、专利

Open Carringbrinks opened this issue 4 months ago • 2 comments

佬们,关于专利、论文(pdf个格式),书籍(word格式)处理成预训练数据集(分割划分为文本即可)的脚本有参考的吗

Carringbrinks avatar Aug 16 '25 14:08 Carringbrinks

pdf的处理是比较麻烦的,请参阅项目首页的“多模态处理工具”。付费工具我们试下来mathpix的效果最好。 word比较复杂,有doc和docx不同的版本,微软在windows环境提供了官方的转码工具,可以找一下。

esbatmop avatar Aug 18 '25 08:08 esbatmop

专利和论文 PDF 可以参考这个仓库进行基础解析 https://github.com/MIracleyin/docling_parse_mnbvc 核心思路是把 PDF 使用工具结构化,但是存在准确性,多模态(图片、表格)内容丢失问题 word 等 office 格式可以参考 https://github.com/microsoft/markitdown 现代 office 格式本质上是可解析的 xml 文件,因此可以比较准确的获取内容结构

MIracleyin avatar Aug 19 '25 07:08 MIracleyin