MiniCPM
MiniCPM copied to clipboard
生成速度比Qwen2 7B还慢
测试了一下在V100上速度较慢,这是为何
我刚测了也发现比qwen2慢,比较明显。我用的都是llama.cpp gguf q4的量化。发现qwen2日志里显示offloaded 29 layers to GPU, 而minicpm3是offloaded 63 layers to GPU. 不知道是不是层数太深计算量比较大的缘故。
确实太慢了。。。在RTX4090上运行modelscope示例代码,居然只有24字/秒。 这速度真是服了。毫无用处
miniCPM3.0-4B体验了一下 1)对于4B效果还可以,但语义理解、SFT、指令遵从还是弱于qwen2-7B。 2)速度太慢了!!!
对头,实际上这种参数少,但是速度慢的模型,即便是在移动端都不一定有太大用途,移动端一样速度慢,尽管内存占用小一点,但感觉收益比不高,内存不一定是瓶颈,反而是速度、智能度是更高优先级
对头,实际上这种参数少,但是速度慢的模型,即便是在移动端都不一定有太大用途,移动端一样速度慢,尽管内存占用小一点,但感觉收益比不高,内存不一定是瓶颈,反而是速度、智能度是更高优先级
有研究为什么minicpm-2B会比其他公司更大的(如qwen-4B)模型慢的原因吗?谢谢。
推荐使用SGLang推理,它对MiniCPM3中使用的MLA结构优化的更好,serving时的吞吐量实测相比于vLLM能提高70%。README中已经更新。