FlagEmbedding 关于性能问题

服务端用bge-small做文本embedding, 任务是短文本匹配，使用gpu推理，单样本（20字符长度文本对）做推理，没有用batch, 平均耗时约20ms。但是接口调用方的请求比较快，每秒钟有20个请求，每个请求有数百条匹配文本，请求数越多，模型的平均推理耗时越长。想问下有没有可以提升模型推理速度的方法？看issue中提到的几个方法

embedding降维，用pca或者加一层全连接，把768/512降低到 128维；
转onnx部署
用batch的形式做embedding
使用hugging face的text-embedding-inference 的docker形式部署

方法4应该是比较好的，bge的微调后的FlagModel模型，好像有不能用4的方式部署了？有什么方法解决吗

Mar 12 '24 01:03 wanzhixiao

微调后也可以用方式4的，模型结构是一致的。

Mar 12 '24 07:03 staoxiao

微调后也可以用方式4的，模型结构是一致的。

可以直接用4部署微调后的模型吗，现在外面套了一层FlagModel，怎么转成huggingface格式模型？

Mar 12 '24 07:03 wanzhixiao

微调后的模型文件和原始文件是一样的，参考https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/baai_general_embedding#using-huggingface-transformers 加载即可，将模型名字换成微调模型的路径

Mar 12 '24 07:03 staoxiao