Shitao Xiao comments

Results 503 comments of


                                            Shitao Xiao

ValueError: num_samples should be a positive integer value, but got num_samples=0

@Zeng-B-B , `--train_data`设置为完整的路径，./data/toy_data1.jsonl

LLM reranker，为什么output label始终为Yes

取出yes的logit，根据大小进行排序

You can use bge-reranker-v2 to compute scores for pos and neg, and use bge-m3 script to fine-tune models via distillation: https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/unified_finetune#2-data-format

bge-m3 只用dense效果会比bge-large-zh好吗？

不同下游任务可能效果会不一样，无法有确切的结论

BGE-M3 unify微调时，forward函数中self.use_inbatch_neg的实际含义？

> if self.use_inbatch_neg: 为每个查询创建了一个查询索引，将查询索引乘以 group_size，确保了每个查询都指向其对应的文档组的第一个文档，这可以视为正样本。但是后续的loss计算为self.compute_loss(scores, target)，我的理解是只计算了正样本与query之间的loss，这里并没有体现出use_inbatch_neg 这里的scores 里是每个query对所有passage（包括in-batch的passage)的分数， > else:（也即 not self.use_inbatch_neg）为每个查询创建了一个查询索引0, 表示每个查询只考虑第一个文档。第一个文档作为batch中的第一个文档，它只与第一个query对应，且为第一个query的正样本。将第一个query的正样本与所有的query求loss，这样是为了区分不同的query吗？那为什么不用第二个query的第一个文档与所有的query求loss呢？这里的scores里只有每个query和其对应group里样本的分数，

Shitao Xiao

ValueError: num_samples should be a positive integer value, but got num_samples=0

LLM reranker，为什么output label始终为Yes

关于Rerank

teacher score

bge-m3 只用dense效果会比bge-large-zh好吗？

BGE-M3 unify微调时，forward函数中self.use_inbatch_neg的实际含义？

电脑 M1 微调报错：zsh: segmentation fault python -m FlagEmbedding.

Calculate AUC error

如何微调BGE-Multilingual-Gemma2呢？

bge-m3稀疏向量在不同的卡上跑出的结果不一样