lxb0425

Results 18 issues of lxb0425

**例行检查** [//]: # '方框内填 x 表示打钩' - [] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [xx] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

**例行检查** [//]: # '方框内填 x 表示打钩' - [ ] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭**...

bug

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答? | Is there an...

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x] 我理解并认可上述内容,并理解项目维护者精力有限,**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

### Your current environment python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --max-model-len 8192 --served-model-name chat-v2.0 --model /workspace/chat-v2.0 --enforce-eager --tensor-parallel-size 4 我使用4 4090部署微调后的72b-int4位 响应很慢要十几秒 这是什么原因啊 使用1 A100响应还可以 还发现使用2张4090也能跑起来比4张卡块但是一段时间内没有响应 ![image](https://github.com/vllm-project/vllm/assets/50564015/314b5004-594e-49b6-8c1b-d57ccb0a0fb3) ### How would you...

usage

1 使用qwen2-72B-instruct 训练后再gptq量化成4位 #777 的方式使用A100上做了填充 3 在A100使用vllm启动推理性能没出问题 部署在4卡4090上推理效果差很多,甚至还会滔滔不绝,指令理解有问题等 咋效果差别这么大 是填充方式有问题吗 而且填充后和官方的config.json不一样 config.json ![image](https://github.com/user-attachments/assets/28d23539-7fdd-494c-b9b1-03a7a3942f32)