onnxsim_large_model icon indicating copy to clipboard operation
onnxsim_large_model copied to clipboard

请问如何正确推理使用cuda导出的fp16 onnx chatglm2-6b-32k模型?

Open yuunnn-w opened this issue 1 year ago • 0 comments

我看32k和原生的模型结构基本是一致的,尝试了一下导出,没有问题,但是无法正确推理,推理到onnx计算部分就直接Killed退出了,请问这是什么原因?请问作者可以支持一下32k的推理吗?我这边想试试把模型导出为rknn架构。

yuunnn-w avatar Sep 03 '23 15:09 yuunnn-w