FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

昇腾 NPU跑bge-m3-rerank推理速度很慢

Open charliedream1 opened this issue 1 year ago • 6 comments

昇腾 NPU跑bge-m3-rerank,跑同样的序列,从第二次开始就很快了。但是如果每次batch长度大小不一,或者有时候长度很长,16batch 800长度序列,速度就会变得超级慢,在910A上推理,10分钟都跑不完,是为什么,怎么优化呢?

另外,试了下跑onnx的cpu版本,16*6000的序列也超级慢,要好几分钟,正常吗,怎么优化?

charliedream1 avatar Jul 31 '24 16:07 charliedream1

抱歉,没用过NPU,没有这方面的经验。

staoxiao avatar Aug 10 '24 15:08 staoxiao

我也测了,感觉好慢,比cpu还慢。奇怪。

Damonpkl avatar Oct 09 '24 08:10 Damonpkl

fanxing-6 avatar Oct 13 '24 04:10 fanxing-6

同样的问题

WangVertex avatar Oct 22 '24 09:10 WangVertex

同样的问题

tanyo520 avatar Nov 13 '24 05:11 tanyo520

支持直接用npu吗?

datalee avatar Mar 24 '25 01:03 datalee