FlagEmbedding
FlagEmbedding copied to clipboard
昇腾 NPU跑bge-m3-rerank推理速度很慢
昇腾 NPU跑bge-m3-rerank,跑同样的序列,从第二次开始就很快了。但是如果每次batch长度大小不一,或者有时候长度很长,16batch 800长度序列,速度就会变得超级慢,在910A上推理,10分钟都跑不完,是为什么,怎么优化呢?
另外,试了下跑onnx的cpu版本,16*6000的序列也超级慢,要好几分钟,正常吗,怎么优化?
抱歉,没用过NPU,没有这方面的经验。
我也测了,感觉好慢,比cpu还慢。奇怪。
同
同样的问题
同样的问题
支持直接用npu吗?