FlagEmbedding
FlagEmbedding copied to clipboard
预训练数据获取
您好,看到论文中提到了数据全开源,请问一下RetroMAE预训练用到的105种语言的语料该如何申请或者下载。
您好,预训练部分的数据我们没有做什么额外的处理,且这部分数据量太大,我们不打算开源这部分数据,我们仅仅会开源所有的微调数据。如果您有需要可以参照我们的论文自行下载相应的数据。
您好,预训练部分的数据我们没有做什么额外的处理,且这部分数据量太大,我们不打算开源这部分数据,我们仅仅会开源所有的微调数据。如果您有需要可以参照我们的论文自行下载相应的数据。
好的感谢您的回复,也有看到您在别的issue里回复会有开源经过RetroMAE预训练模型的打算,不知道这个是否有较为明确的时间,我们打算follow您的工作,作为我们的基座,做垂直领域相关的研究。(我们处在基座选择期,调研发现bge m3是比较完备的项目,因此想申请到您的预训练模型)
您好,我们目前开源了BGE-M3所有阶段的模型:BAAI/bge-m3-retromae, BAAI/bge-m3-unsupervised, BAAI/bge-m3,模型说明参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#specs