W2NER icon indicating copy to clipboard operation
W2NER copied to clipboard

数据通过DataLoader后,训练集只有一个Batch_size大小

Open Shajiu opened this issue 2 years ago • 1 comments

开始如数数据集时时整个训练集的大小,当数据通过DataLoader后,训练集只有一个Batch_size大小,随后正式训练时数据只有这部分数据集,具体显示在data_loader.py的第274行进行计算,先打印出len(datasets[0]),后打印len(train_loader),前后大小不一致了。随后模型都是在train_loader上进行训练的,请问这是怎么回事儿?论文里的指标都是这么计算的么?这个也太离谱了吧~

Shajiu avatar Mar 10 '23 03:03 Shajiu

len(datasets[0])显示的是训练集的数据量,随后train_loader会将dataset处理成batch,每次训练通过循环来取一个batch训练,取完所有batch后记为一个epoch,因此len(train_loader)显示的是batch的数量,所以len(train_loader)会比len(datasets[0])小。train_loader加载了训练集并将处理成batch,本身就是用于训练的。

ljynlp avatar Mar 11 '23 13:03 ljynlp