MinerU
MinerU copied to clipboard
如何对layout模型进行微调
有些pdf分块有一点问题,如何使用私有数据进行微调
正确分块如下:
layout识别看着没问题,这个是后处理算法问题,如果有能力二次开发的话直接对算法部分进行修改就行。 layout核心算法是这个 https://github.com/opendatalab/MinerU/blob/4983bc1df668b80fa3481fa657eb509b448bb082/magic_pdf/pdf_parse_union_core.py#L152 能解决这种多栏排版的话也欢迎提pr。
@dengtianmin Due to copyright issues with the training data, it cannot be made public. If needed, you can contact the Opendatalab assistant in the WeChat group for cooperation.