Results 338 comments of jxt1234

这个是 NVIDIA 上 opencl softmax 算子的兼容性,已经修正了,可以更新代码再测试下

目前没有相关工具支持。可以自行导出 onnx 转换到 mnn

Please upload the int8 onnx model. You can try to use mnnconvert to quantization instead. https://mnn-docs.readthedocs.io/en/latest/tools/compress.html#id8

上传原始模型,我们排查一下? 用 testMNNFromOnnx.py 测试过么?

1. 建议是转换时加上 --saveExternalWeight 分离权重 2. NN::Utils::ExtractConvolution 现在估计不支持 external weight ,需要修改一下代码

MNN 是什么时候的版本? 在 llm_demo 里面打印一下 MNN 的version 看下,有可能系统库里有 mnn 冲突了。

1. Build mnn with bf16: -DMNN_SUPPORT_BF16=ON 2. See speed/MatMulBConstTest in test/speed/MatMulSpeed.cpp, modify the parameters 3. ./run_test.out speed/MatMulBConstTest 0 3 to test bfmmla 4. See speed/ConvInt8/im2col_gemm and change the size 5....

1. 使用 llm_demo 的话,每次对话都会加入历史重新输入,是会越来越慢的。 2. 应该是 precision 和 thread number 在 opencl 后端被混用了,近期会解决 二、像是 kernel 编译失败了,我们检查一下

编译 mnn 时是否打开了 -DLLM_SUPPORT_VISION=true -DMNN_BUILD_OPENCV=true -DMNN_IMGCODECS=true https://mnn-docs.readthedocs.io/en/latest/transformers/llm.html