FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

bge-m3在同时对长度为10000+的字符串数组进行编码时报错

Open leaf-ygq opened this issue 1 year ago • 1 comments

image bge-m3dui对显卡gpu要求很高。 之前我用bge-v1.5能够轻轻松松同时对长度为10000+的字符串数组进行编码,但在使用bge-m3同时对长度为10000+的字符串数组进行编码时,报错了,有什么办法能够解决吗?

leaf-ygq avatar Feb 04 '24 07:02 leaf-ygq

您好,bge-m3只是词表大了些,对显存的要求并不会比之前高很多。这可能是由于文本长度引起的问题。 之前的bge-v1.5只能编码512数量的tokens,超过的文本会被截断。但是现在的bge-m3会编码8192的tokens,由于长度变长,会很容易爆显存。 可以参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#generate-embedding-for-text 修改max_length=512,降低文本长度进行编码。如果想继续编码比较长的文本,可以降低batch_size。

staoxiao avatar Feb 04 '24 11:02 staoxiao