FlagEmbedding
FlagEmbedding copied to clipboard
关于 train_group_size 设置的问题
如果我的数据集每条负样本数量不一致,比如在25-35之间浮动。train_group_size应该如何设置,可以直接取20之间的值么? 还是我应该去掉一些,让每条负样本的长度一致,比如19,然后再设置train_group_size为20
不需要保持负样本的数量一致,如果负样本数量不足,程序会自动重复采样。 因此,train_group_size设置成什么值,程序都能跑,可以设置成负样本的平均数量,避免样本过多重复导致模型过拟合。