MinerU
MinerU copied to clipboard
您好,请问是否有抽取好的大规模多模态数据开源
尤其是DocVQA 中文的
@luohao123 你好,文档开源涉及到的版权关系太复杂,开放有风险。如果有这方面的资源可以找我们合作,联合开源。
@drunkpig 收费的吗?
@luohao123 The collaboration is based on each party's respective strengths and does not have any commercial attributes. So you can simply consider it as free.
@drunkpig 有交流群或者啥的吗,我可以贡献起来,看看能不能一起共享一份类似的数据集,我目前比较想加一部分做题的文档qa数据,非ocr,可以是元素问答,也可以是直接做试卷的截图。或者做一些table类的版面转换。