grok
grok
单独微调colbert,bge这边好像不太支持,实现了一个简单版本。https://github.com/NLPJCL/RAG-Retrieval
为什么colbert,在得到向量的时候,把cls给去掉了呢?(有做过不去cls的实验嘛?) 1.是因为您的colbert是和向量模型一起训练的,向量模型的训练中,cls表征整个句子的意思。担心colbert的loss干扰向量模型的表征嘛?
1.请问下训练时参数就是默认的下面的。最终开源的模型是训练到第几个epoch的呢? torchrun --nproc_per_node {number of gpus} \ -m FlagEmbedding.reranker.run \ --output_dir {path to save model} \ --model_name_or_path BAAI/bge-reranker-base \ --train_data ./toy_finetune_data.jsonl \ --learning_rate 6e-5 \ --fp16 \ --num_train_epochs 5 \...
请问下,rerank的训练数据,我看Chinese 只有,788,491个。但是MMmarco的训练集就有39780811个。 1.MMmarco只采样了很少的一部分吗?具体采样方法是什么?采样了多少呢?
请教下下面几个问题。 1.rerank模型训练的时候batch_size是多少呢? 2.为rerank模型挖掘难样本的时候,用的是什么向量模型呢?挖掘的范围是多少呢?是默认的2-200吗? 3.复现的时候Cmedqa上的效果不太理想,我用的是zirui3/cMedQA2-instructions的数据,共22wquery和正例。请问下你们训练的时候用的是哪里的数据?cMedQA1有加入进去吗?
太赞了!
多问一句,cMedQA2没有难样本的话,交叉墒loss是怎么训练的呢?
感谢~
1.明白了,没写反,写的有点乱, 这里突然加了个负号,没注意看。 cosine_similarity_diff = -(predict_similarity.unsqueeze(0) - predict_similarity.unsqueeze(1)) 2.没仔细看,也明白了,其实loss优化的是query1和pos1的余弦相似度大于query2和pos2的余弦相似度。(labe1大于label2的情况下)。至于query1和pos1的余弦相似度拉到多近,由模型自己决定。