Shitao Xiao

Results 503 comments of Shitao Xiao

@Zeng-B-B , `--train_data`设置为完整的路径,./data/toy_data1.jsonl

取出yes的logit,根据大小进行排序

当前不支持

You can use bge-reranker-v2 to compute scores for pos and neg, and use bge-m3 script to fine-tune models via distillation: https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/unified_finetune#2-data-format

不同下游任务可能效果会不一样,无法有确切的结论

> if self.use_inbatch_neg: 为每个查询创建了一个查询索引,将查询索引乘以 group_size,确保了每个查询都指向其对应的文档组的第一个文档,这可以视为正样本。但是后续的loss计算为self.compute_loss(scores, target),我的理解是只计算了正样本与query之间的loss,这里并没有体现出use_inbatch_neg 这里的scores 里是每个query对所有passage(包括in-batch的passage)的分数, > else:(也即 not self.use_inbatch_neg) 为每个查询创建了一个查询索引0, 表示每个查询只考虑第一个文档。第一个文档作为batch中的第一个文档,它只与第一个query对应,且为第一个query的正样本。将第一个query的正样本与所有的query求loss,这样是为了区分不同的query吗?那为什么不用第二个query的第一个文档与所有的query求loss呢? 这里的scores里只有每个query和其对应group里样本的分数,

@zhangyukun230 , 参考https://stackoverflow.com/questions/72435382/how-can-i-fix-1-leaked-semaphore-objects-to-clean-up-at-shutdown-error-on-mac,可能是python版本或者内存不够

@dg618k , Can you show the code you revised?

暂时还不支持,后面会把代码更新上去。