lxb0425
lxb0425
**例行检查** [//]: # '方框内填 x 表示打钩' - [] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [xx] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
**例行检查** [//]: # '方框内填 x 表示打钩' - [ ] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭**...
**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答? | Is there an...
**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...
### Your current environment python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --max-model-len 8192 --served-model-name chat-v2.0 --model /workspace/chat-v2.0 --enforce-eager --tensor-parallel-size 4 我使用4 4090部署微调后的72b-int4位 响应很慢要十几秒 这是什么原因啊 使用1 A100响应还可以 还发现使用2张4090也能跑起来比4张卡块但是一段时间内没有响应  ### How would you...
1 使用qwen2-72B-instruct 训练后再gptq量化成4位 #777 的方式使用A100上做了填充 3 在A100使用vllm启动推理性能没出问题 部署在4卡4090上推理效果差很多,甚至还会滔滔不绝,指令理解有问题等 咋效果差别这么大 是填充方式有问题吗 而且填充后和官方的config.json不一样 config.json 