jxt1234
jxt1234
1. 更新到 3.1.2 试试? 2. 这个看上去是 shape 计算失败,中间应该有其他 log ,命令行下面的日志也看一下? 3. 相关模型和测试文件夹麻烦提交一下
这个看着应该是 输入输出名 和模型不匹配,用 GetMNNInfo 看下模型信息,对比 input.json
1. 加载时会做权重重排,后续的 resizeSession 时间就少了。 2. fp16 的模型目前需要先 fp16 -> fp32 再重排,如果开了 arm82 还需要再转 fp16 ,是当前加载最慢的。 3. 可以换用量化模型 (模型转换时加上 --weightQuantBits=8 --weightQuantBlock=64),并开启动态量化 (设置 memory = low),加载速度有优化,性能也可以提升 https://mnn-docs.readthedocs.io/en/latest/tools/compress.html
"D:\a\MNN\MNN\source\backend\cpu\x86_x64\avx\GemmInt8.cpp(1549,32): error C2668: '`anonymous-namespace'::_mm256_extract_epi64': ambiguous call to overloaded function"
默认的采样方式没有规避重复的处理,可以在 config.json 里面加一句 "sampler_type": "penalty" https://mnn-docs.readthedocs.io/en/latest/transformers/llm.html
这个和模型无关,更新 mnn 代码即可
是最新代码测试么?看提交应该已经解决了
看下你的 mnn 代码有没包含 7391896be30eb2cd21a4eceb97329a2c118dd8b3 这个提交
https://github.com/alibaba/MNN/pull/3375 这个提交修正了
建 tmp 文件的话,后续推理正确么?看着每次都没有缓存