mechigonft issues

Results 31 issues of


                                            mechigonft

[BUG] A100单卡推理，GPU使用率只有30%

### 是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答？ | Is there an...

使用qwen1.8b微调相关性模型，效果奇差，怀疑是预训练数据质量太低

微软利用LLM生成embedding已经发布了相关论文和模型，在英文榜单取得SOTA，期待LLaRA

论文名称：imporving_text_embeddings_with_large_language_modeds 模型地址：intfloat/e5-mistral-7b-instruct 可惜这个模型的基座模型是英文模型，英文效果好，但是中文并不好

LLaRA是用大模型LLM来做embedding吗？

同上，常规的embedding，基座模型是encoder模型，LLaRA是准备用LLM来做embedding吗？召回速度是否会有影响，因为LLM模型参数量越大，响应速度越慢，是否会降低embedding的效率

本人是bge的深度使用者，完成了embedding、reranker的部署、推理、微调全链路跑通与评测，目前发现一个问题，提出来，供大家思考：首先给出我的数据结论，关键数据已脱敏处理，一个箭头代表5%提升或下降，提升或下降是指与【只embedding不reranker】做对比：微调前embedding+微调前reranker叠加使用：↑ 微调前embedding+微调后reranker叠加使用：↑↑ 微调后embedding+微调前reranker叠加使用：↓ 微调后embedding+微调后reranker叠加使用：↓↓↓ 也就是说，对于微调后的embedding效果而言，叠加reranker会导致效果更差，我个人感觉是：同样的微调方式（难负例），微调后的reranker效果跟不上embedding的效果，导致叠加会变坏。后来，我针对reranker的微调方式进行修改再尝试，具体是将难负例挖掘的向量模型切换成我微调后的embedding模型（之前用的都是微调前的），结果发现了一个更令人震惊的事情，不管我怎么修改reranker训练数据：拆条/不拆条，增加neg数量从15->100，无一例外，训练loss全部不再收敛，训练后模型推理丧失多样性，所有的输出全部为同一个值

请教两个细节问题

1、用来预训练bge-large-zh-1.5的基座模型是什么？ 2、有什么推荐的，比较好的中文bert类模型，用来替换基座模型预训练，提高在中文领域的embedding和reranker效果？

训练日志弹出：Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated...

关于LM_Cocktail的几个问题

很惊艳的工作！针对模型合并LM_Cocktail想请教几个问题： 1、针对embedding模型，如果我有2个垂域场景，那单独针对2个场景分别微调2个模型，再使用LM_Cocktail合并，还是，将2个垂域场景的训练数据先合并在一起，微调一个模型，这两种做法有什么差异？各自有什么优缺点呢？LM_Cocktail核心解决了什么问题，模型合并比数据合并再微调的方式有什么优势？ 2、关于你们在介绍中说的，LM_Cocktail合并后的模型可以保持在垂域上的训练效果，而不丢失其他领域的通用效果，那我理解应该会降低垂域的效果吧，比如model1（基于垂域数据微调，垂域准确率60%），model2（裸模型，未微调，垂域准确率20%）那合并后，合并的模型的垂域效果将会

难负例挖掘有问题

1、设置的--negative_number 100，没用，挖掘的结果还是只有15个neg 2、日志报错：./hard_negatives.sh: line 6: --range_for_sampling: command not found，但是挖掘数据是成功的，成功产出了挖掘结果。我的脚本： python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine \ --model_name_or_path /ossfs/workspace/vector/model/bge-large-zh-v1.5 \ --input_file /ossfs/workspace/vector/data/zheng_data.jsonl \ --output_file /ossfs/workspace/vector/data/before_model_minedHN_100_neg_count.jsonl \ --range_for_sampling 2-200 \ --candidate_pool /ossfs/workspace/vector/data/candidate_pool.jsonl \ --negative_number...

请问embedding模型或者reranker模型是否可以做相关性模型

相关性任务，判断两个seq是否相关三个参数 seq1，seq2，flag flag为1表示相关，flag为0表示不相关