MNBVC
MNBVC copied to clipboard
论文、专利
佬们,关于专利、论文(pdf个格式),书籍(word格式)处理成预训练数据集(分割划分为文本即可)的脚本有参考的吗
pdf的处理是比较麻烦的,请参阅项目首页的“多模态处理工具”。付费工具我们试下来mathpix的效果最好。 word比较复杂,有doc和docx不同的版本,微软在windows环境提供了官方的转码工具,可以找一下。
专利和论文 PDF 可以参考这个仓库进行基础解析 https://github.com/MIracleyin/docling_parse_mnbvc 核心思路是把 PDF 使用工具结构化,但是存在准确性,多模态(图片、表格)内容丢失问题 word 等 office 格式可以参考 https://github.com/microsoft/markitdown 现代 office 格式本质上是可解析的 xml 文件,因此可以比较准确的获取内容结构