PaddleMIX
PaddleMIX copied to clipboard
PP-DocBee合成中文数据集的代码,有计划开源吗?
数据本身暂时没有;
数据生成方案/代码已经开源
细节: https://arxiv.org/abs/2503.04065
代码: https://github.com/PaddlePaddle/PaddleMIX/tree/develop/paddlemix/datacopilot/example/pp_infinitydocdata