inference icon indicating copy to clipboard operation
inference copied to clipboard

调用chat接口时不指定max_tokens参数默认返回的tokens长度为1024,怎么发布模型时修改默认配置增加返回tokens长度

Open wangyongpenga opened this issue 11 months ago • 7 comments

Image

wangyongpenga avatar Feb 07 '25 10:02 wangyongpenga

为什么要改默认的?你生成的时候传 max_tokens 就好了啊

qinxuye avatar Feb 07 '25 11:02 qinxuye

为什么要改默认的?你生成的时候传 max_tokens 就好了啊

chatbox这种工具配置的时候没有max——tokens字段,返回的时候界面显示截断了

wangyongpenga avatar Feb 07 '25 11:02 wangyongpenga

Image修改了fields.py这里之后,再在xinference启动模型时报错,楼主后来解决了吗? @wangyongpenga

sunh1995 avatar Mar 13 '25 02:03 sunh1995

  你好,邮件我已收到~!祝你的生活越来越好..........

geyaandy avatar Mar 13 '25 02:03 geyaandy

加一个 --max-model-len 参数,xinference 就这个地方需要注意一下。我也不理解为什么就一定要在客户端调用的时候加,有的客户端是没有地方设置的

FlintyLemming avatar Mar 13 '25 04:03 FlintyLemming

新版 max_model_len 已经默认拉到最大了。

max_tokens 我们再考虑拉到默认和上下文一样,但是这样有爆显存的风险。

qinxuye avatar Mar 13 '25 04:03 qinxuye

好的,感谢感谢,用 vllm 我个人觉得应该都是有充足的额外 KV Cache 用来开上下文,可以考虑作为一个选项

FlintyLemming avatar Mar 13 '25 04:03 FlintyLemming