ragflow
ragflow copied to clipboard
[Question]: Why does the speed slow down after calling the rerank model?
Describe your problem
我用的Xinference部署的rerank模型
没用这个模型之前,部署的话,全部都是加载到GPU上,但是用了这个模型之后,就有一部分会加载到CPU上,且,调用的时候,GPU也不出全力工作,远远低于所占用的空间。
I suggest you submit an issue to Xinference.