Qxinyu

Results 31 comments of Qxinyu

是否有开启auto tune功能,config.numThread设为4

你在统计时间的时候有同步吗,可以调用outputs->readMap()

opencl是异步执行的,在调用readMap时才会同步,所以forward的时间不准确。 你可以编译的时候打开宏 MNN_OPENCL_PROFILE,开启后会打印OpenCL执行kernel的总耗时,这个时间一般是和总耗时一致的。

这个可以等下个版本更新解决。

现在版本主要是针对buffer模式进行的优化,image由于尺寸限制,有些算子会回退到cpu执行,所以性能较慢。

> > 建 tmp 文件的话,后续推理正确么?看着每次都没有缓存 > > Update cache to tmp/mnn_cachefile.bin, size = 3015836 Open tmp/mnn_cachefile.bin error Write Cache File error! > > 这个文件是否存在貌似对性能有比较大的影响? 我这边测试的时候vulkan上看到prefill差异很大 这个文件会存储运行的kernel二进制和local size的设置,第一次生成的时候会很慢,后面通过缓存启动会变快。

现在Qwen3-0.6B在8gen3的设备上会有这个问题,在8gen5上正常,这个原因我们暂时也不太清楚。

> > 现在Qwen3-0.6B在8gen3的设备上会有这个问题,在8gen5上正常,这个原因我们暂时也不太清楚。 > > 我尝试的8gen5也不行 你在导出模型的时候有打开--seperate_embed, 在执行阶段需要embeddings_bf16.bin文件。

方便提供模型我们这边复现一下吗