LLLiHaotian

Results 15 comments of LLLiHaotian

您好,感谢您的回复。 因为我的挖掘负例过程的输入数据中是没有neg的,只有query和pos,因此才会产生我所提到的问题。 至于candidate_pool参数,也正因为我缺少负例,所以没办法利用这个参数。 最后关于您提出的从效果考虑,可以直接从BAAI/bge-m3上进行微调,这是什么原因呢?二者的区别在哪呢?

感谢您的回答 我昨天将我现有数据进行了double处理——即query中文pos英文再加上query英文pos中文,如此作为挖掘负例的输入,应该与您“把所有query和pos汇总再一起当作candidate_pool”的最终目的一致。 我之后再试试微调BAAI/bge-m3

您好,继上述问题,通过挖掘难负例的脚本,实现负样本对的有效高质量生成,从而利用对比学习框架的训练微调手段进行模型微调从而得到更好的embedding模型这应该是挖掘难负例数据的最终目标。 但是,请问挖掘负例的方式是通过计算query文本本身与pos集合所有文本进行相似性计算得到k个负例,这里感觉有点不符合逻辑。具体来说,这里的相似性计算就必然要进行一步向量表示,这里的embedding模型的选择对于相似性计算得到的负例的结果就会产生很大的不可控性,由此计算来的负例可信度是否经得住推敲? 期待您的回答。

您好,我看了项目中微调部分的代码,想与您确认一下,微调训练的损失函数是否采用的是有监督SimCSE的对比损失。

> > 损失函数是否采用的是有监督S > > 可以贴一些微调代码的链接吗 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune

您好,我注意到BGE-M3的跨语言评估测试https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3 ![image](https://github.com/FlagOpen/FlagEmbedding/assets/150894804/27e990cc-dc29-40ae-b6b6-c1edeebfc06e) 其中针对跨语言进行评估的部分代码是否会公布? 另外,想请问,这种跨语言性能的评估能否在MTEB进行评估,期待您的回答,谢谢。

您好,还想请教一下,关于统一微调和只针对密集检索的微调有何区别,我有注意到统一微调中可以加入知识蒸馏的手段,请问"pos_scores": List[float], "neg_scores": List[float]其中的pos_scores和neg_scores的获取方式是怎么样的呢? https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/unified_finetune

那请问,reranker本身是输出两个句子的相似度,能否通过修改reranker的代码得到中或者英两种语言的向量表示呢?另外,中英两种语言在同一空间的向量表示性能的提升是通过对比学习的微调来解决的吗?

您好,还有几个问题,请您赐教。 1、微调的中英双语的reranker,对于跨语言的文本的向量表示的优劣的评测标准是什么呢? 2、如何得知不同语言在同一个向量空间中是否进行了准确表示(即不同语言或同一语言的语义相近的空间距离很相近,反之不同语言或同一语言的语义相近的空间距离很远)? 3、向量表示的提升是否直接来自于微调数据的质量,微调数据的难负例挖掘的越好,模型的跨语言表示能力越好?

I only hope to use the encoder part to support representation, and there is no need for downstream tasks for the time being. Therefore, I would like to know how...