Qxinyu

Results 31 comments of


                                            Qxinyu

MNN的GPU性能对比CPU

是否有开启auto tune功能，config.numThread设为4

Android跑两个模型，OpenCL只能在一个上面生效。

你在统计时间的时候有同步吗，可以调用outputs->readMap()

Android跑两个模型，OpenCL只能在一个上面生效。

opencl是异步执行的，在调用readMap时才会同步，所以forward的时间不准确。你可以编译的时候打开宏 MNN_OPENCL_PROFILE，开启后会打印OpenCL执行kernel的总耗时，这个时间一般是和总耗时一致的。

英伟达T4上运行OpencCL报错

这个可以等下个版本更新解决。

英伟达T4上运行OpencCL报错

现在版本主要是针对buffer模式进行的优化，image由于尺寸限制，有些算子会回退到cpu执行，所以性能较慢。

Qwen2-vl-2b和Qwen2.5-vl-3b模型opencl推理llm部分，首次推理正确，再次推理结果都是感叹号！！！！！

你这边是用的gpu是什么的，我们复现一下。

Qwen2-vl-2b和Qwen2.5-vl-3b模型opencl推理llm部分，首次推理正确，再次推理结果都是感叹号！！！！！

> > 建 tmp 文件的话，后续推理正确么？看着每次都没有缓存 > > Update cache to tmp/mnn_cachefile.bin, size = 3015836 Open tmp/mnn_cachefile.bin error Write Cache File error! > > 这个文件是否存在貌似对性能有比较大的影响？我这边测试的时候vulkan上看到prefill差异很大这个文件会存储运行的kernel二进制和local size的设置，第一次生成的时候会很慢，后面通过缓存启动会变快。

QWen3-0.6B NPU 部署，Convert for QNN, QualComn's NPU，Broad cast error

现在Qwen3-0.6B在8gen3的设备上会有这个问题，在8gen5上正常，这个原因我们暂时也不太清楚。

QWen3-0.6B NPU 部署，Convert for QNN, QualComn's NPU，Broad cast error

> > 现在Qwen3-0.6B在8gen3的设备上会有这个问题，在8gen5上正常，这个原因我们暂时也不太清楚。 > > 我尝试的8gen5也不行你在导出模型的时候有打开--seperate_embed, 在执行阶段需要embeddings_bf16.bin文件。

OpenCL后端崩溃

方便提供模型我们这边复现一下吗

1
2
3
4
›