jxt1234
jxt1234
使用的是什么后端? 骁龙芯片上新版本 nnapi 都是跑 cpu 了
默认是 cpu 的,可以修改 config.json 把线程数设成 2 ,或者改用 opencl 试下
QNN 在支持中
看上去只有 prefill 的过程,decode 的推理代码是?
decode 的时候一般 mMeta->add = 1 (也就是 ids_len = 1)
感觉没有问题,可能是其他部分的代码有误? 可以把 mnn-llm 输入的 varp 打印出来看一下
相关代码还在整理中,请等候 mnn-nnr 开源
相关模型可以发一下?另外 windows 上是什么 gpu ?
目前卡在哪里?
Ok, we will fix it later