FlagEmbedding
FlagEmbedding copied to clipboard
bge-m3和bge-rerank-v2-m3按语种裁剪
你好!
非常感谢你们开源这两个业界最强的多语种模型,支持190+语种。我现在想将语种缩减到7个,分别是中英日韩西法阿。想请教下应该怎么做?
我的一些想法: 1.将中英日韩西法阿这7个语种的数据在bge-m3和bge-rerank-v2-m3这两个模型上进行微调,让参数向这7个语种靠拢。 2.将词表进行裁剪,只保留中英日韩西法阿这7个语种,然后再重复1的工作。
不知道是否可行?