FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

请问FT的数据大概应该准备多少呢?

Open 128Ghe980 opened this issue 1 year ago • 9 comments

现在打算使用BGE-base和BGE-large做大模型召回部分的embedding模型,希望在自己的数据集上ft一下,请问二者数据大概应该准备多少呢?另外负例大小有推荐的值吗?还是说默认10就不错?

128Ghe980 avatar Jan 12 '24 03:01 128Ghe980

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

staoxiao avatar Jan 12 '24 07:01 staoxiao

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

128Ghe980 avatar Jan 12 '24 09:01 128Ghe980

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

staoxiao avatar Jan 12 '24 16:01 staoxiao

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

128Ghe980 avatar Jan 17 '24 02:01 128Ghe980

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

staoxiao avatar Jan 17 '24 11:01 staoxiao

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

有推荐的中文指令吗?我只看到eval中英语版指令Represent this sentence for searching relevant passages,但是直接翻译感觉太怪了

128Ghe980 avatar Jan 22 '24 03:01 128Ghe980

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

另外我还有个想问一下,我看到是否加入指令是写bash文件中的,不能直接区分哪些需要加,哪些不需要加。那您说的“Q- A问答对加上指令,QQ不加”,我是应该分两步去train,还是直接在q-a数据集的q上直接加上指令然后和qq混合呢?

128Ghe980 avatar Jan 22 '24 03:01 128Ghe980

可以参考我们之前使用的中文指令:“为这个句子生成表示以用于检索相关文章:”。 直接在q-a数据上加,训练时不设置instruction参数。

staoxiao avatar Jan 22 '24 09:01 staoxiao

可以参考我们之前使用的中文指令:“为这个句子生成表示以用于检索相关文章:”。 直接在q-a数据上加,训练时不设置instruction参数。

ok,明白了,谢谢

128Ghe980 avatar Jan 22 '24 10:01 128Ghe980

你好,请问你们说的QA和QQ数据分别表示的是,问答数据和相似句子数据对吗。

ChengsongLu avatar Mar 26 '24 05:03 ChengsongLu

另外,英文的passages用中文的query,这样的数据用来微调是可以的吗?(微调BGE-M3)

ChengsongLu avatar Mar 26 '24 06:03 ChengsongLu