FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

支持中英文双语的模型?

Open knowledge-llz opened this issue 1 year ago • 22 comments

您的模型是按照语言分为了bge-large-en、bge-large-zh,但我测试了bge-large-zh也能很好地对英文计算相似度。想确认一下bge-large-zh是否支持中英文双语?如果支持,bge-large-zh在英文数据集上测试的效果如何?

knowledge-llz avatar Aug 08 '23 10:08 knowledge-llz

bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。

如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。

staoxiao avatar Aug 08 '23 10:08 staoxiao

哇,非常感谢你如此神速的回复!另外再问一下,我是否可以微调出一个支持中英文双语的模型,如果可以,您会推荐我选择哪个模型进行微调?(我手里的中英文的数据数量差不多一样)

knowledge-llz avatar Aug 08 '23 10:08 knowledge-llz

个人也不是很确定哪个会更好,可能需要都尝试一下。

staoxiao avatar Aug 08 '23 11:08 staoxiao

另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。

staoxiao avatar Aug 08 '23 11:08 staoxiao

好的,非常感谢您的回答。我希望对于含中英文的资料库进行提问,并召回与提问相关的资料,提问最好也能用中英双语。

knowledge-llz avatar Aug 08 '23 13:08 knowledge-llz

好的。请问会需要用中文提问检索英文资料吗?还是说中文提问只检索资料库里的中文资料?

staoxiao avatar Aug 08 '23 13:08 staoxiao

中文提问也要检索相关的英文资料

knowledge-llz avatar Aug 08 '23 13:08 knowledge-llz

了解了,谢谢!

staoxiao avatar Aug 08 '23 13:08 staoxiao

了解了,谢谢!

所以咱们有计划发布中英双语的模型吗?

LukeALee avatar Aug 23 '23 07:08 LukeALee

了解了,谢谢!

所以咱们有计划发布中英双语的模型吗?

有的,中英双语或者多语言的模型都在计划中,后续会陆续发布。

staoxiao avatar Aug 23 '23 07:08 staoxiao

另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。

比如现在很多的论文阅读场景都会有需求

dongxiaolong avatar Sep 14 '23 06:09 dongxiaolong

好的。请问会需要用中文提问检索英文资料吗?还是说中文提问只检索资料库里的中文资料?

中英双语应该是个普遍需求,比如中文读英文文献,还有query代码中也会有英文注释之类的,当然这是对于中文领域,那么英文领域对于中文资料库query应该也有类似需求。

firezym avatar Sep 18 '23 07:09 firezym

请问有没有中英翻译这类的数据集推荐呢

HaoRenkk123 avatar Sep 21 '23 12:09 HaoRenkk123

bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。

如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。

有没有可以,多语言放在一个模型里呢?因为好多场景,是中英或者其它语言一块的,如果每一种语言都放在一个模型,那对应上层的模型服务张会变得非常困难,同时上层业务也不太好匹配是文档是否那种语言

landerson85 avatar Sep 27 '23 06:09 landerson85

请问有没有中英翻译这类的数据集推荐呢

抱歉,不太了解这个方向。

staoxiao avatar Sep 27 '23 07:09 staoxiao

bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。 如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。

有没有可以,多语言放在一个模型里呢?因为好多场景,是中英或者其它语言一块的,如果每一种语言都放在一个模型,那对应上层的模型服务张会变得非常困难,同时上层业务也不太好匹配是文档是否那种语言

您好,多语言模型在训练中,将会在一个模型里支持多种语言。

staoxiao avatar Sep 27 '23 07:09 staoxiao

保持关注中,中英文混合场景还是比较多的。目前折中的方案是用llm翻译再检索,如果能直接cover中英文就太好了,感谢作者

LCorleone avatar Oct 07 '23 14:10 LCorleone

另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。

你好,我觉得现在这类模型的需求,应该是支持多语言长文本相似度召回的,目前开源模型的Bert base model 的sequence length 都只有512,而OpenAI的ada2是8196的,多语言能力和sequence length 的差距巨大。综合这两个方面的原因,目前开源模型只在单语言短文本相似度的对比上有优势,使用场景是十分受限的。

dongxiaolong avatar Oct 11 '23 02:10 dongxiaolong

发布了新版模型BGE-M3, 支持多语言、长文本和多种检索模式。欢迎使用并给出反馈意见。

staoxiao avatar Jan 31 '24 02:01 staoxiao

您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢

atu5257 avatar Mar 14 '24 07:03 atu5257

您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢

建议使用bge-m3。

staoxiao avatar Mar 14 '24 09:03 staoxiao

您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢

建议使用bge-m3。

现在中英互相检索,建议用bge-m3吗?

chuangzhidan avatar Jul 30 '24 14:07 chuangzhidan