inference
inference copied to clipboard
调用chat接口时不指定max_tokens参数默认返回的tokens长度为1024,怎么发布模型时修改默认配置增加返回tokens长度
为什么要改默认的?你生成的时候传 max_tokens 就好了啊
为什么要改默认的?你生成的时候传 max_tokens 就好了啊
chatbox这种工具配置的时候没有max——tokens字段,返回的时候界面显示截断了
修改了fields.py这里之后,再在xinference启动模型时报错,楼主后来解决了吗? @wangyongpenga
你好,邮件我已收到~!祝你的生活越来越好..........
加一个 --max-model-len 参数,xinference 就这个地方需要注意一下。我也不理解为什么就一定要在客户端调用的时候加,有的客户端是没有地方设置的
新版 max_model_len 已经默认拉到最大了。
max_tokens 我们再考虑拉到默认和上下文一样,但是这样有爆显存的风险。
好的,感谢感谢,用 vllm 我个人觉得应该都是有充足的额外 KV Cache 用来开上下文,可以考虑作为一个选项