mechigonft
mechigonft
### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答? | Is there an...
### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答? | Is there an...
论文名称:imporving_text_embeddings_with_large_language_modeds 模型地址:intfloat/e5-mistral-7b-instruct 可惜这个模型的基座模型是英文模型,英文效果好,但是中文并不好
同上,常规的embedding,基座模型是encoder模型,LLaRA是准备用LLM来做embedding吗?召回速度是否会有影响,因为LLM模型参数量越大,响应速度越慢,是否会降低embedding的效率
本人是bge的深度使用者,完成了embedding、reranker的部署、推理、微调全链路跑通与评测,目前发现一个问题,提出来,供大家思考: 首先给出我的数据结论,关键数据已脱敏处理,一个箭头代表5%提升或下降,提升或下降是指与【只embedding不reranker】做对比: 微调前embedding+微调前reranker叠加使用:↑ 微调前embedding+微调后reranker叠加使用:↑↑ 微调后embedding+微调前reranker叠加使用:↓ 微调后embedding+微调后reranker叠加使用:↓↓↓ 也就是说,对于微调后的embedding效果而言,叠加reranker会导致效果更差,我个人感觉是:同样的微调方式(难负例),微调后的reranker效果跟不上embedding的效果,导致叠加会变坏。 后来,我针对reranker的微调方式进行修改再尝试,具体是将难负例挖掘的向量模型切换成我微调后的embedding模型(之前用的都是微调前的),结果发现了一个更令人震惊的事情,不管我怎么修改reranker训练数据:拆条/不拆条,增加neg数量从15->100,无一例外,训练loss全部不再收敛,训练后模型推理丧失多样性,所有的输出全部为同一个值
请教两个细节问题
1、用来预训练bge-large-zh-1.5的基座模型是什么? 2、有什么推荐的,比较好的中文bert类模型,用来替换基座模型预训练,提高在中文领域的embedding和reranker效果?
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated...
很惊艳的工作! 针对模型合并LM_Cocktail想请教几个问题: 1、针对embedding模型,如果我有2个垂域场景,那单独针对2个场景分别微调2个模型,再使用LM_Cocktail合并,还是,将2个垂域场景的训练数据先合并在一起,微调一个模型,这两种做法有什么差异?各自有什么优缺点呢?LM_Cocktail核心解决了什么问题,模型合并比数据合并再微调的方式有什么优势? 2、关于你们在介绍中说的,LM_Cocktail合并后的模型可以保持在垂域上的训练效果,而不丢失其他领域的通用效果,那我理解应该会降低垂域的效果吧,比如model1(基于垂域数据微调,垂域准确率60%),model2(裸模型,未微调,垂域准确率20%)那合并后,合并的模型的垂域效果将会
难负例挖掘有问题
1、设置的--negative_number 100,没用,挖掘的结果还是只有15个neg 2、日志报错:./hard_negatives.sh: line 6: --range_for_sampling: command not found,但是挖掘数据是成功的,成功产出了挖掘结果。 我的脚本: python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine \ --model_name_or_path /ossfs/workspace/vector/model/bge-large-zh-v1.5 \ --input_file /ossfs/workspace/vector/data/zheng_data.jsonl \ --output_file /ossfs/workspace/vector/data/before_model_minedHN_100_neg_count.jsonl \ --range_for_sampling 2-200 \ --candidate_pool /ossfs/workspace/vector/data/candidate_pool.jsonl \ --negative_number...
相关性任务,判断两个seq是否相关 三个参数 seq1,seq2,flag flag为1表示相关,flag为0表示不相关