volcano
volcano
thanks
> 哈咯,请问lambda什么含义呀?为什么取0.1?随机选五人训练聚合,不应该取0.2吗 取0.2就是之后的全局模型完全取决于本轮次客户端提交的参数差,如果提交小于0.2那就代表还考虑了全局模型的权重
> > 没有影响,Qwen2.5 的 pad_token_id 和 eos_token_id 是一样的 > > 您好!经查看发现,Qwen2.5的带instruct的模型的tokenizer的pad_token和eos_token不一样,前者是(id为151643),后者是(id为151645);不带instruct的模型的pad_token和eos_token是一样的,都是 我觉得应该补一个 然后后面接,不然最后一句用户的im没有闭合
> **Description:** We're encountering an abnormal inference issue with DeepSeek-V3-0324 version where the output data contains inexplicable Chinese characters prefixed with "极" (e.g., "极速赛车", "极简", "极其", etc.). > > **Reproduction...