Azure
Azure
> > > [@Azure-Tang](https://github.com/Azure-Tang) can you help check ? thank you very much > > > > > > Hi, I think you are using `fp8` yaml, which needs to...
> [@Azure-Tang](https://github.com/Azure-Tang) 我用得GGUF 不是[KVCache-ai/DeepSeek-V3-GGML-FP8-Hybrid](https://huggingface.co/KVCache-ai/DeepSeek-V3) . 我得找对应的0528 DeepSeek-R1-IQ1S-FP8 model-00000-of-00061.safetensors 这种格式的. 针对R1-0528 和 R1-T2 能给个Q1S-FP8 的model 吗? 所以你想是想跑混合精度的权重?gpu fp8,cpu ggml iq1?这样的话需要您根据教程自己造一份0528的权重
> 好的, 自己试试吧. 最近的R1-T2 这个你们试过了吗? performance 有提升吗? 还没试过。我刚刚看了一下huggingface的[仓库](https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera#deepseek-tng-r1t2-chimera),作者说“Unlike the original Chimera, which was based on the two parent models V3-0324 and R1, the new Chimera is a Tri-Mind with three...
> So did you manage to fix the error with ggml_type 18? Hi, the error should not occur if using correct yaml and IQ1S weights.
> > > So did you manage to fix the error with ggml_type 18? > > > > > > Hi, the error should not occur if using correct yaml...
> 1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 > 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上 embedding层不需要放到cpu,是计算稀疏的,收益很低。
> > > 1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 > > > 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上 > > > > > > embedding层不需要放到cpu,是计算稀疏的,收益很低。 > > 好的,感谢,不是很了解网络结构,我说错了,不是ktransformers.operators.RoPE.YarnRotaryEmbeddingV3,是model.embed_tokens,我是尝试将这部分放在cuda上 我就是说这个,embedding层不用从cpu挪到gpu。有点回串了。 我觉得这位朋友说的应该就是你的问题: > 你的内存插法可能不是最优化,理论上每个CPU 6通道,总共12通道,24个插槽。 建议插12条完全一样的内存条在12个通道上,或者24个插满,否则都影响内存性能。
> > 我2块A800 80G gpu ,72核cpu,可以把cpu用满,但是显卡利用利只有10%, 都是用cpu在计算了,怎么把显卡性能用起来,显卡还有90%性能没用上,只用了10G显存,怎调?各位有办法吗? > > 用这个参数会快一些: --optimize_rule_path ./ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml > > prompt eval count: 60 token(s) prompt eval duration: 3.1178791522979736s prompt eval rate: 19.243850408948063 tokens/s eval count:...
我去hugging face看了一下unsloth的UD-Q8_K_XL,没有看到什么特殊的格式。 请问一下您安装的kt版本,我去下个权重跑一下看看
> > 我去hughing face看了一下unsloth的UD-Q8_K_XL,没有看到什么特殊的格式。 请问一下您安装的kt版本,我去下个权重跑一下看看 > > 我用0.31版本部署了UD-Q8_K_XL,local_chat能够正常运行,但是部署成服务器就会出现TypeError: DeepseekV3RMSNorm.forward() takes 2 positional arguments but 4 were given。正在尝试去掉多并发是否能正常运行。 > > 测试结果: 不开启多并发,删除--backend_type balance_serve,能够正常运行,cpu_infer设置为49,numa=1,解码大约会在10 tokens/s 上下。 英特尔8468_2 内存: 64G DDR5 5600Mt_32 显卡:L40s*1,Ubuntu...