shalong07
shalong07
thread_num 需要设成 68 这个不会影响GPU处理吧?也就是opencl。 设置如下可以正常运行,但是GPU性能比CPU还要慢,GPU使用率不到40%多。 "thread_num": 4, "precision": "low", "memory": "low"
补充一下我用的模型是DeepSeek-R1:7B
"thread_num": 68,设置成68依然会报错load ../MNN/model7b/llm.mnn ... Map error ptrCL == nullptr 修改下面这两个属性组合也不行,最多报错不一样被kill掉。 "precision": "low", "memory": "low" 还请问下是不是转换或编译的时候有问题?亦或是opencl不匹配?
或者是8550本身GPU带不动7B模型?
cmake .. \ -DCMAKE_SYSTEM_NAME=Linux \ -DCMAKE_SYSTEM_VERSION=1 \ -DCMAKE_SYSTEM_PROCESSOR=aarch64 \ -DCMAKE_C_COMPILER=/dde/Code/AI/DeepSeek/Deekseek/MNN-master/gcc-linaro-7.5.0-2019.12-i686_aarch64-linux-gnu/bin/aarch64-linux-gnu-gcc \ -DCMAKE_CXX_COMPILER=/dde/Code/AI/DeepSeek/Deekseek/MNN-master/gcc-linaro-7.5.0-2019.12-i686_aarch64-linux-gnu/bin/aarch64-linux-gnu-g++ \ -DMNN_LOW_MEMORY=true \ -DMNN_CPU_WEIGHT_DEQUANT_GEMM=true \ -DMNN_BUILD_LLM=true \ -DMNN_SUPPORT_TRANSFORMER_FUSE=true \ -DMNN_OPENCL=true \ -DMNN_VULKAN=true 这个是我编译的命令,代码是最近下载的。 模型转换就用的网上的命令: python llmexport.py --path download_path/models--deepseek-ai--DeepSeek-R1-7B...
python llmexport.py --path download_path/models--deepseek-ai--DeepSeek-R1-7B --export mnn --quant_bit 4 量化模型后依然会提示内存问题