Results 338 comments of jxt1234

1. 更新到 3.1.2 试试? 2. 这个看上去是 shape 计算失败,中间应该有其他 log ,命令行下面的日志也看一下? 3. 相关模型和测试文件夹麻烦提交一下

这个看着应该是 输入输出名 和模型不匹配,用 GetMNNInfo 看下模型信息,对比 input.json

1. 加载时会做权重重排,后续的 resizeSession 时间就少了。 2. fp16 的模型目前需要先 fp16 -> fp32 再重排,如果开了 arm82 还需要再转 fp16 ,是当前加载最慢的。 3. 可以换用量化模型 (模型转换时加上 --weightQuantBits=8 --weightQuantBlock=64),并开启动态量化 (设置 memory = low),加载速度有优化,性能也可以提升 https://mnn-docs.readthedocs.io/en/latest/tools/compress.html

"D:\a\MNN\MNN\source\backend\cpu\x86_x64\avx\GemmInt8.cpp(1549,32): error C2668: '`anonymous-namespace'::_mm256_extract_epi64': ambiguous call to overloaded function"

默认的采样方式没有规避重复的处理,可以在 config.json 里面加一句 "sampler_type": "penalty" https://mnn-docs.readthedocs.io/en/latest/transformers/llm.html

这个和模型无关,更新 mnn 代码即可

看下你的 mnn 代码有没包含 7391896be30eb2cd21a4eceb97329a2c118dd8b3 这个提交