MiniCPM-V icon indicating copy to clipboard operation
MiniCPM-V copied to clipboard

[llamacpp] - <title> 为什么llamacpp执行量化模型还要指定一个 f16的 mmproj-model-f16.gguf ?

Open friendmine opened this issue 1 year ago • 2 comments

起始日期 | Start Date

No response

实现PR | Implementation PR

在 https://huggingface.co/openbmb/MiniCPM-V-2_6-gguf 这里指定的量化运行,需要指定的参数包括: ./llama-minicpmv-cli -m ../MiniCPM-V-2_6/model/ggml-model-Q4_K_M.gguf --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg -p "What is in the image?" 其中 --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf , 是一个f16的版本,如何把它也量化成INT8?

相关Issues | Reference Issues

No response

摘要 | Summary

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8?

基本示例 | Basic Example

缺陷 | Drawbacks

未解决问题 | Unresolved questions

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8?

friendmine avatar Nov 06 '24 08:11 friendmine

你好,这是因为,minicpmv参数量大头在语言模型,这样量化的收益较高。

LDLINGLINGLING avatar Nov 07 '24 14:11 LDLINGLINGLING

是这样的,因为llamacpp在执行的时候,llm是集成在主框架推理的,而多模态并不天然在llama.cpp框架中支持,至少目前是。 所以一般会把多模态部分,额外拿出来作为一个外接的gguf来处理。 而外接的部分,因为通常不会很大,所以做量化得到的空间收益没有很大。 如果你需要量化,也可以将视觉部分量化一下。

tc-mb avatar Jan 15 '25 09:01 tc-mb