Azure comments

Results 22 comments of


                                            Azure

[Bug] can't deepseek 0528 version

> > > [@Azure-Tang](https://github.com/Azure-Tang) can you help check ? thank you very much > > > > > > Hi, I think you are using `fp8` yaml, which needs to...

[Bug] can't deepseek 0528 version

> [@Azure-Tang](https://github.com/Azure-Tang) 我用得GGUF 不是[KVCache-ai/DeepSeek-V3-GGML-FP8-Hybrid](https://huggingface.co/KVCache-ai/DeepSeek-V3) . 我得找对应的0528 DeepSeek-R1-IQ1S-FP8 model-00000-of-00061.safetensors 这种格式的. 针对R1-0528 和 R1-T2 能给个Q1S-FP8 的model 吗? 所以你想是想跑混合精度的权重？gpu fp8，cpu ggml iq1？这样的话需要您根据教程自己造一份0528的权重

[Bug] can't deepseek 0528 version

> 好的, 自己试试吧. 最近的R1-T2 这个你们试过了吗? performance 有提升吗？还没试过。我刚刚看了一下huggingface的[仓库](https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera#deepseek-tng-r1t2-chimera)，作者说“Unlike the original Chimera, which was based on the two parent models V3-0324 and R1, the new Chimera is a Tri-Mind with three...

[Bug] can't deepseek 0528 version

> So did you manage to fix the error with ggml_type 18? Hi, the error should not occur if using correct yaml and IQ1S weights.

[Bug] can't deepseek 0528 version

> > > So did you manage to fix the error with ggml_type 18? > > > > > > Hi, the error should not occur if using correct yaml...

复现了，但DeepSeek-R1-Q4_K_M跑起来速度非常慢，只有约1.5token/s，请问是我配置的原因么？

> 1. 我推理时开启top观察cpu占用量，调参数cpu_infer，将cpu占用量拉高，可以将速度提快 > 2. 我将embedding层也放在cuda上，会报错，模型代码里太多to('cpu')写死了，需要去慢慢改，可以将再多点权重放在gpu上 embedding层不需要放到cpu，是计算稀疏的，收益很低。

复现了，但DeepSeek-R1-Q4_K_M跑起来速度非常慢，只有约1.5token/s，请问是我配置的原因么？

> > > 1. 我推理时开启top观察cpu占用量，调参数cpu_infer，将cpu占用量拉高，可以将速度提快 > > > 2. 我将embedding层也放在cuda上，会报错，模型代码里太多to('cpu')写死了，需要去慢慢改，可以将再多点权重放在gpu上 > > > > > > embedding层不需要放到cpu，是计算稀疏的，收益很低。 > > 好的，感谢，不是很了解网络结构，我说错了，不是ktransformers.operators.RoPE.YarnRotaryEmbeddingV3，是model.embed_tokens，我是尝试将这部分放在cuda上我就是说这个，embedding层不用从cpu挪到gpu。有点回串了。我觉得这位朋友说的应该就是你的问题： > 你的内存插法可能不是最优化，理论上每个CPU 6通道，总共12通道，24个插槽。建议插12条完全一样的内存条在12个通道上，或者24个插满，否则都影响内存性能。

复现了，但DeepSeek-R1-Q4_K_M跑起来速度非常慢，只有约1.5token/s，请问是我配置的原因么？

> > 我2块A800 80G gpu ，72核cpu，可以把cpu用满，但是显卡利用利只有10%，都是用cpu在计算了，怎么把显卡性能用起来，显卡还有90%性能没用上，只用了10G显存，怎调？各位有办法吗？ > > 用这个参数会快一些: --optimize_rule_path ./ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml > > prompt eval count: 60 token(s) prompt eval duration: 3.1178791522979736s prompt eval rate: 19.243850408948063 tokens/s eval count:...

[Bug] 部署unsloth/DeepSeek-R1-0528-GGUF/UD-Q8_K_XL 报错

我去hugging face看了一下unsloth的UD-Q8_K_XL，没有看到什么特殊的格式。请问一下您安装的kt版本，我去下个权重跑一下看看

[Bug] 部署unsloth/DeepSeek-R1-0528-GGUF/UD-Q8_K_XL 报错

> > 我去hughing face看了一下unsloth的UD-Q8_K_XL，没有看到什么特殊的格式。请问一下您安装的kt版本，我去下个权重跑一下看看 > > 我用0.31版本部署了UD-Q8_K_XL，local_chat能够正常运行，但是部署成服务器就会出现TypeError: DeepseekV3RMSNorm.forward() takes 2 positional arguments but 4 were given。正在尝试去掉多并发是否能正常运行。 > > 测试结果：不开启多并发，删除--backend_type balance_serve，能够正常运行，cpu_infer设置为49，numa=1，解码大约会在10 tokens/s 上下。英特尔8468_2 内存： 64G DDR5 5600Mt_32 显卡：L40s*1，Ubuntu...