FlagEmbedding issues

embedding一个有趣且奇怪的现象

6

作者您好，我在最近一直在fellow您的FlagEmbedding和相关榜单，很棒的工作。在使用bge-base/large的encode_corpus编码时，出现有一个有趣且奇怪的现象，在768/1024维度中，无论什么句子，有两个 sharp 值, 如base: ![image](https://github.com/FlagOpen/FlagEmbedding/assets/31383929/6d0eeea1-0506-41ce-b8db-bc18eebd367d) 如在294这一维度，基本上都在0.5左右如large ![image](https://github.com/FlagOpen/FlagEmbedding/assets/31383929/02393c5e-3996-4ec6-ac10-dc13dcfd0288)

ahpuchend

难负例挖掘有问题

15

1、设置的--negative_number 100，没用，挖掘的结果还是只有15个neg 2、日志报错：./hard_negatives.sh: line 6: --range_for_sampling: command not found，但是挖掘数据是成功的，成功产出了挖掘结果。我的脚本： python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine \ --model_name_or_path /ossfs/workspace/vector/model/bge-large-zh-v1.5 \ --input_file /ossfs/workspace/vector/data/zheng_data.jsonl \ --output_file /ossfs/workspace/vector/data/before_model_minedHN_100_neg_count.jsonl \ --range_for_sampling 2-200 \ --candidate_pool /ossfs/workspace/vector/data/candidate_pool.jsonl \ --negative_number...

mechigonft

不同类型数据集训练bge

5

您好，问下我有2个不同类型数据集，我应该把他们混合在一起训练还是进行两次接续训练啊

zhaobinNF

llm-embedder怎样支持中文

1

请给点思路提示呢

ChanChiChoi

请问embedding模型或者reranker模型是否可以做相关性模型

2

相关性任务，判断两个seq是否相关三个参数 seq1，seq2，flag flag为1表示相关，flag为0表示不相关

mechigonft

关于微调所占用GPU内存的问题

6

您好，请问微调过程中是哪些因素占用了大量GPU内存？明明模型参数和输入的批数据都不大。

GavinYang1113

embedding训练集构建

14

请问一下，我想实现文本检索任务，对篇章数据已经做了切分（分片）：问题1：embedding微调数据的构造上，是对分片后的数据用大模型生成query，来构建训练集吗？我们再制作向量化微调的监督数据怎么做的，能给一些意见吗？问题2：要不要加入项目之外的数据，比如加入一些我们训练的原始数据（MTP数据）？问题3：有1000+条手工标注的项目数据（query和对应答案），为了提升数据量，可以用大模型对query相似问扩充吗？

zhaizhijiang

finetuning loss不降低

2

第一epoch里面loss很快不变了，还有继续训练的必要吗？ {'loss': 1.043, 'learning_rate': 1e-05, 'epoch': 0.0} {'loss': 1.0732, 'learning_rate': 9.997437868306432e-06, 'epoch': 0.01} {'loss': 0.8342, 'learning_rate': 9.992313604919294e-06, 'epoch': 0.01} {'loss': 0.7637, 'learning_rate': 9.987189341532154e-06, 'epoch': 0.01} {'loss': 0.7827, 'learning_rate': 9.982065078145018e-06, 'epoch':...

wxl18039675170

reranker训练效果不及训练前Baseline

2

你好，我的训练数据量级~10w，我做了以下两组实验： 1. embedding finetune 和 reranker finetune 用同一份数据，前者微调完成后比未微调的通用模型效果好，但后者微调后明显比微调前效果更差 2. 用finetuned embedding model采样难负样本后微调reranker，依旧比微调前效果差上述两个实验中，reranker收敛正常，评测集上分值也未发现有异常一致的情况，我的reranker微调参数： deepspeed --num_gpus 8 \ --module FlagEmbedding.reranker.run \ --output_dir ...... \ --model_name_or_path ......bge-reranker-base \ --train_data ...... \ --deepspeed...

LexieeWei

没有找到微调阶段在哪里修改学习率的设置？

2

zoeChen119

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

embedding一个有趣且奇怪的现象

难负例挖掘有问题

不同类型数据集训练bge

llm-embedder怎样支持中文

请问embedding模型或者reranker模型是否可以做相关性模型

关于微调所占用GPU内存的问题

embedding训练集构建

finetuning loss不降低

reranker训练效果不及训练前Baseline

没有找到微调阶段在哪里修改学习率的设置？

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard