SIGIR2020_peterrec icon indicating copy to clipboard operation
SIGIR2020_peterrec copied to clipboard

用示例代码 + 单卡GPU,训练速度特别慢

Open lcshr123 opened this issue 3 years ago • 1 comments

你好,我用 Tesla P40 单卡来跑咱们的数据集,用到的参数都是论文里的设置 model_para = { 'item_size': len(items), 'dilated_channels': 256, 'dilations': [1, 2, 4, 8, 1, 2, 4, 8, 1, 2, 4, 8, 1, 2, 4, 8], 'kernel_size': 3, 'learning_rate':0.001, 'batch_size':32, 'iterations':400, 'is_negsample':True } 发现训练速度非常慢,要用 416分钟才能跑完一轮,默认的400轮跑完不知要猴年马月了。我用的是 coldrec2_pre.csv 这个数据集。请问这个训练速度很慢的问题有遇到过吗? -------------------------------------------------------train1 LOSS: 5.77672100067 ITER: 0 BATCH_NO: 169 STEP:170 total_batches:23006 TIME FOR BATCH 1.08627700806 TIME FOR ITER (mins) 416.514814123

lcshr123 avatar Nov 07 '20 07:11 lcshr123

[1, 2, 4, 8, 1, 2, 4, 8, 1, 2, 4, 8, 1, 2, 4, 8] 是32层,1 4 means 1 2 4 8. 一般2 iterations 就收敛了, 不用400的 (请阅读readme里面哈,400不是默认设置). 你用NextitNet_TF_Pretrain_topk.py .py试一下。另外 用了很大的embedding和很高的层数,慢一些属于正常,如果改成把喂数据地方改一下,会快很多的,网络比transformer快很多的

yuan2961634811 avatar Dec 17 '20 08:12 yuan2961634811