Results 338 comments of jxt1234

使用的是什么后端? 骁龙芯片上新版本 nnapi 都是跑 cpu 了

默认是 cpu 的,可以修改 config.json 把线程数设成 2 ,或者改用 opencl 试下

看上去只有 prefill 的过程,decode 的推理代码是?

decode 的时候一般 mMeta->add = 1 (也就是 ids_len = 1)

感觉没有问题,可能是其他部分的代码有误? 可以把 mnn-llm 输入的 varp 打印出来看一下

相关模型可以发一下?另外 windows 上是什么 gpu ?