Results 1 comments of AndrewHR

> 你好,[@KeepGoingCSU](https://github.com/KeepGoingCSU)。对于分类任务,需要在数据集所在文件夹的名称中添加后缀 `no_in_batch_neg`,像我们给的例子一样。代码中在开启 `same_dataset_within_batch` 的情况下,如果识别到某个文件夹的后缀为 `no_in_batch_neg` 则对于来自该文件夹下的数据的 batch 只使用提供的 negs,而不会去通过 in-batch 和 cross-device 的方式去扩展 negs,这样就避免了可能的伪负例。相关代码如下: > > * https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/abc/finetune/embedder/AbsDataset.py#L286 > * https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/abc/finetune/embedder/AbsModeling.py#L140 > > 对于提到的“知识遗忘”问题,可以尝试使用仓库中的 LM-Cocktail 方法去做模型融合:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/LM_Cocktail 还有个问题想请教下,train_group_size是用来限制nce loss计算时抽取的neg数量(train_group_size-1),那如果我训练样本negs比如是10条,train_group_size=8,然后我用上了in-batch neg训练,这个时候抽取负样本逻辑是什么?