FlagEmbedding
FlagEmbedding copied to clipboard
bge-m3在同时对长度为10000+的字符串数组进行编码时报错
bge-m3dui对显卡gpu要求很高。
之前我用bge-v1.5能够轻轻松松同时对长度为10000+的字符串数组进行编码,但在使用bge-m3同时对长度为10000+的字符串数组进行编码时,报错了,有什么办法能够解决吗?
您好,bge-m3只是词表大了些,对显存的要求并不会比之前高很多。这可能是由于文本长度引起的问题。 之前的bge-v1.5只能编码512数量的tokens,超过的文本会被截断。但是现在的bge-m3会编码8192的tokens,由于长度变长,会很容易爆显存。 可以参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#generate-embedding-for-text 修改max_length=512,降低文本长度进行编码。如果想继续编码比较长的文本,可以降低batch_size。