grok comments

Results 12 comments of


                                            grok

实现了一个单独微调bge-m3-colbert的代码。

单独微调colbert，bge这边好像不太支持，实现了一个简单版本。https://github.com/NLPJCL/RAG-Retrieval

请教colbert实现的问题

为什么colbert，在得到向量的时候，把cls给去掉了呢？（有做过不去cls的实验嘛？） 1.是因为您的colbert是和向量模型一起训练的，向量模型的训练中，cls表征整个句子的意思。担心colbert的loss干扰向量模型的表征嘛？

1.请问下训练时参数就是默认的下面的。最终开源的模型是训练到第几个epoch的呢？ torchrun --nproc_per_node {number of gpus} \ -m FlagEmbedding.reranker.run \ --output_dir {path to save model} \ --model_name_or_path BAAI/bge-reranker-base \ --train_data ./toy_finetune_data.jsonl \ --learning_rate 6e-5 \ --fp16 \ --num_train_epochs 5 \...

Reranker的训练问题

请问下，rerank的训练数据,我看Chinese 只有，788,491个。但是MMmarco的训练集就有39780811个。 1.MMmarco只采样了很少的一部分吗？具体采样方法是什么？采样了多少呢？

Reranker的训练问题

请教下下面几个问题。 1.rerank模型训练的时候batch_size是多少呢？ 2.为rerank模型挖掘难样本的时候，用的是什么向量模型呢？挖掘的范围是多少呢？是默认的2-200吗？ 3.复现的时候Cmedqa上的效果不太理想，我用的是zirui3/cMedQA2-instructions的数据，共22wquery和正例。请问下你们训练的时候用的是哪里的数据？cMedQA1有加入进去吗？

Reranker的训练问题

太赞了！

Reranker的训练问题

多问一句，cMedQA2没有难样本的话，交叉墒loss是怎么训练的呢？

Reranker的训练问题

感谢～

CoSentLoss的一点疑惑，

1.明白了，没写反，写的有点乱，这里突然加了个负号，没注意看。 cosine_similarity_diff = -(predict_similarity.unsqueeze(0) - predict_similarity.unsqueeze(1)) 2.没仔细看，也明白了，其实loss优化的是query1和pos1的余弦相似度大于query2和pos2的余弦相似度。(labe1大于label2的情况下)。至于query1和pos1的余弦相似度拉到多近，由模型自己决定。

batch size 小的时候使用 `SigmoidContrastLoss` 会好一点，大的时候 `SoftmaxContrastLoss` 好一点？

感谢🙏