PaddleRec ESMM全量数据生成缺失reader.py文件

ESMM全量数据生成缺失reader.py文件

Open AlbusWei opened this issue 2 years ago • 1 comments

ali-ccp文件夹下，data_process.sh文件里面有一行 python reader.py --train_data_path ${train_target_path}
--test_data_path ${test_target_path}
--vocab_path vocab/vocab_size.txt
--train_sample_size 6400
--test_sample_size 6400
但是ali-ccp文件夹下没有reader.py文件，而使用run.sh下载的10m数据集复现不了文档中说的效果，auc停留在0.5x 想要下载全量数据，但是没有reader，也无法反推数据处理的方式

Aug 04 '22 18:08 AlbusWei

可以通过run.sh获取10w数据哈，如果想获取全量数据可以去论文所给地址下载，处理脚本可以参考这个reader

Aug 10 '22 09:08 wangzhen38

PaddleRec PaddleRec copied to clipboard

ESMM全量数据生成缺失reader.py文件

PaddleRec
PaddleRec copied to clipboard