FlagEmbedding
FlagEmbedding copied to clipboard
关于性能问题
服务端用bge-small做文本embedding, 任务是短文本匹配,使用gpu推理,单样本(20字符长度文本对)做推理,没有用batch, 平均耗时约20ms。但是接口调用方的请求比较快,每秒钟有20个请求,每个请求有数百条匹配文本,请求数越多,模型的平均推理耗时越长。想问下有没有可以提升模型推理速度的方法?看issue中提到的几个方法
- embedding降维,用pca或者加一层全连接,把768/512降低到 128维;
- 转onnx部署
- 用batch的形式做embedding
- 使用hugging face的text-embedding-inference 的docker形式部署
方法4应该是比较好的,bge的微调后的FlagModel模型,好像有不能用4的方式部署了?有什么方法解决吗
微调后也可以用方式4的,模型结构是一致的。
微调后也可以用方式4的,模型结构是一致的。
可以直接用4部署微调后的模型吗,现在外面套了一层FlagModel,怎么转成huggingface格式 模型?
微调后的模型文件和原始文件是一样的,参考https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/baai_general_embedding#using-huggingface-transformers 加载即可,将模型名字换成微调模型的路径