FlagEmbedding
FlagEmbedding copied to clipboard
支持中英文双语的模型?
您的模型是按照语言分为了bge-large-en、bge-large-zh,但我测试了bge-large-zh也能很好地对英文计算相似度。想确认一下bge-large-zh是否支持中英文双语?如果支持,bge-large-zh在英文数据集上测试的效果如何?
bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。
如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。
哇,非常感谢你如此神速的回复!另外再问一下,我是否可以微调出一个支持中英文双语的模型,如果可以,您会推荐我选择哪个模型进行微调?(我手里的中英文的数据数量差不多一样)
个人也不是很确定哪个会更好,可能需要都尝试一下。
另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。
好的,非常感谢您的回答。我希望对于含中英文的资料库进行提问,并召回与提问相关的资料,提问最好也能用中英双语。
好的。请问会需要用中文提问检索英文资料吗?还是说中文提问只检索资料库里的中文资料?
中文提问也要检索相关的英文资料
了解了,谢谢!
了解了,谢谢!
所以咱们有计划发布中英双语的模型吗?
了解了,谢谢!
所以咱们有计划发布中英双语的模型吗?
有的,中英双语或者多语言的模型都在计划中,后续会陆续发布。
另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。
比如现在很多的论文阅读场景都会有需求
好的。请问会需要用中文提问检索英文资料吗?还是说中文提问只检索资料库里的中文资料?
中英双语应该是个普遍需求,比如中文读英文文献,还有query代码中也会有英文注释之类的,当然这是对于中文领域,那么英文领域对于中文资料库query应该也有类似需求。
请问有没有中英翻译这类的数据集推荐呢
bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。
如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。
有没有可以,多语言放在一个模型里呢?因为好多场景,是中英或者其它语言一块的,如果每一种语言都放在一个模型,那对应上层的模型服务张会变得非常困难,同时上层业务也不太好匹配是文档是否那种语言
请问有没有中英翻译这类的数据集推荐呢
抱歉,不太了解这个方向。
bge-large-zh支持英文,但其训练数据大部分是中文,英文能力并没有bge-large-en强。 抱歉,目前没有测试bge-large-zh在英文数据集上的效果。 如果是中文数据集里包含少量英文,建议使用bge-large-zh。 反之如果是大部分是英文数据,建议使用bge-large-en。 后续也将开放多语言版本,希望可以满足您的需要。
有没有可以,多语言放在一个模型里呢?因为好多场景,是中英或者其它语言一块的,如果每一种语言都放在一个模型,那对应上层的模型服务张会变得非常困难,同时上层业务也不太好匹配是文档是否那种语言
您好,多语言模型在训练中,将会在一个模型里支持多种语言。
保持关注中,中英文混合场景还是比较多的。目前折中的方案是用llm翻译再检索,如果能直接cover中英文就太好了,感谢作者
另外,方便询问一下您的使用场景吗?如果是普遍需求的话,我们也会考虑下一版模型同时支持中英文双语。
你好,我觉得现在这类模型的需求,应该是支持多语言长文本相似度召回的,目前开源模型的Bert base model 的sequence length 都只有512,而OpenAI的ada2是8196的,多语言能力和sequence length 的差距巨大。综合这两个方面的原因,目前开源模型只在单语言短文本相似度的对比上有优势,使用场景是十分受限的。
发布了新版模型BGE-M3, 支持多语言、长文本和多种检索模式。欢迎使用并给出反馈意见。
您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢
您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢
建议使用bge-m3。
您好,请问需要用中文提问检索英文资料,用bge-large-en还是bge-large-zh?谢谢
建议使用bge-m3。
现在中英互相检索,建议用bge-m3吗?