FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
请问一下,在rerank modelling代码中看到的target label是用torch.zeros初始化的,然后loss计算是使用cross_entropy(scores, target_label),构建的批数据首个正样本对的target label应该是1?其余负样本对设置成0?
loss到了4以后,再下降的速度就让人心焦,以此时的encoder model进行cmteb评测,分数很低 预训练loss下降到多少可以进行finetune?求开发者提示一下,当时你们用3台a100训练了多长时间?
很惊艳的工作! 针对模型合并LM_Cocktail想请教几个问题: 1、针对embedding模型,如果我有2个垂域场景,那单独针对2个场景分别微调2个模型,再使用LM_Cocktail合并,还是,将2个垂域场景的训练数据先合并在一起,微调一个模型,这两种做法有什么差异?各自有什么优缺点呢?LM_Cocktail核心解决了什么问题,模型合并比数据合并再微调的方式有什么优势? 2、关于你们在介绍中说的,LM_Cocktail合并后的模型可以保持在垂域上的训练效果,而不丢失其他领域的通用效果,那我理解应该会降低垂域的效果吧,比如model1(基于垂域数据微调,垂域准确率60%),model2(裸模型,未微调,垂域准确率20%)那合并后,合并的模型的垂域效果将会
您好,我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况,并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常,我想了解数据集的生成过程,特别是以下几点: 1. **数据集构建流程**:数据集是如何从原始数据中提取出 4000 个查询和相应的语料库(大约 7500+ 条目)的? 2. **相似问题的处理**:在处理 4000 个查询时,是否有对相似问题进行清洗或标注? 3. **负样本的选取**:负样本(与查询无关的样本)是如何选取的?是否主要来自网络搜索内容? 我希望通过了解这些信息,能更准确地判断数据集中是否存在标签错误或其他问题。 ## 细节 我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是...
相似度如何卡阈值
您好,我在卡阈值的时候发现,有些相似度的分值0.97左右,但是匹配的不太对, 有些是0.89,但是匹配的结果很相似。 就感觉这个值不是一个固定的,而是针对不同问题相对的值,就没办法做统一处理了, 请问这个有啥好办法吗?
每次转都会生成很多权重的子文件,怎么生成只有一个onnx文件呢?
你好,请问一下使用bge-large-zh模型进行文本嵌入的时候,对输入文本长度的限制是多少,768还是1024吗
原始数据量疑问
您好,问下你们用于训练的文本对的来源原始语料大概有多大啊。会低于1.3T吗
问下对于reranker有预训练的流程和相关代码吗