inference 调用chat接口时不指定max_tokens参数默认返回的tokens长度为1024，怎么发布模型时修改默认配置增加返回tokens长度

Feb 07 '25 10:02 wangyongpenga

为什么要改默认的？你生成的时候传 max_tokens 就好了啊

Feb 07 '25 11:02 qinxuye

为什么要改默认的？你生成的时候传 max_tokens 就好了啊

chatbox这种工具配置的时候没有max——tokens字段，返回的时候界面显示截断了

Feb 07 '25 11:02 wangyongpenga

修改了fields.py这里之后，再在xinference启动模型时报错，楼主后来解决了吗？ @wangyongpenga

Mar 13 '25 02:03 sunh1995

你好，邮件我已收到~！祝你的生活越来越好..........

Mar 13 '25 02:03 geyaandy

加一个 --max-model-len 参数，xinference 就这个地方需要注意一下。我也不理解为什么就一定要在客户端调用的时候加，有的客户端是没有地方设置的

Mar 13 '25 04:03 FlintyLemming

新版 max_model_len 已经默认拉到最大了。

max_tokens 我们再考虑拉到默认和上下文一样，但是这样有爆显存的风险。

Mar 13 '25 04:03 qinxuye

好的，感谢感谢，用 vllm 我个人觉得应该都是有充足的额外 KV Cache 用来开上下文，可以考虑作为一个选项

Mar 13 '25 04:03 FlintyLemming