MiniCPM-V [llamacpp] - <title> 为什么llamacpp执行量化模型还要指定一个 f16的 mmproj-model-f16.gguf ?

起始日期 | Start Date

No response

实现PR | Implementation PR

在 https://huggingface.co/openbmb/MiniCPM-V-2_6-gguf 这里指定的量化运行，需要指定的参数包括： ./llama-minicpmv-cli -m ../MiniCPM-V-2_6/model/ggml-model-Q4_K_M.gguf --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg -p "What is in the image?" 其中 --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf ，是一个f16的版本，如何把它也量化成INT8？

摘要 | Summary

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8？

基本示例 | Basic Example

无

缺陷 | Drawbacks

无

未解决问题 | Unresolved questions

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8？

Nov 06 '24 08:11 friendmine

你好，这是因为，minicpmv参数量大头在语言模型，这样量化的收益较高。

Nov 07 '24 14:11 LDLINGLINGLING

是这样的，因为llamacpp在执行的时候，llm是集成在主框架推理的，而多模态并不天然在llama.cpp框架中支持，至少目前是。所以一般会把多模态部分，额外拿出来作为一个外接的gguf来处理。而外接的部分，因为通常不会很大，所以做量化得到的空间收益没有很大。如果你需要量化，也可以将视觉部分量化一下。

Jan 15 '25 09:01 tc-mb

[llamacpp] - <title> 为什么llamacpp执行量化模型还要指定一个 f16的 mmproj-model-f16.gguf ?

起始日期 | Start Date

实现PR | Implementation PR

相关Issues | Reference Issues

摘要 | Summary

基本示例 | Basic Example

缺陷 | Drawbacks

未解决问题 | Unresolved questions