lxb0425 issues

Results 18 issues of


                                            lxb0425

应用调用之后返回的字符串希望能够流失输出

**例行检查** [//]: # '方框内填 x 表示打钩' - [] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README，以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key，并确认我的 key 是可正常使用的 - [xx] 我理解并愿意跟进此 issue，协助测试和提供反馈 - [x] 我理解并认可上述内容，并理解项目维护者精力有限，**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

上传知识知识库，第一次没报错，后续超过一定大小都报错

**例行检查** [//]: # '方框内填 x 表示打钩' - [x] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README，以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key，并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue，协助测试和提供反馈 - [x] 我理解并认可上述内容，并理解项目维护者精力有限，**不遵循规则的 issue 可能会被无视或直接关闭** **你的版本**...

bug

怎么完全按照知识库回答

bug

一直生成引导性问题

**例行检查** [//]: # '方框内填 x 表示打钩' - [ ] 我已确认目前没有类似 issue - [x] 我已完整查看过项目 README，以及[项目文档](https://doc.fastgpt.in/docs/intro/) - [x] 我使用了自己的 key，并确认我的 key 是可正常使用的 - [x] 我理解并愿意跟进此 issue，协助测试和提供反馈 - [x] 我理解并认可上述内容，并理解项目维护者精力有限，**不遵循规则的 issue 可能会被无视或直接关闭**...

bug

本地部署的Fastgpt接入企业微信作为智能客服问题

bug

微调完成后使用llama_factory的vllm和qwen官方的vllm部署方式启动返回的不一样

### 是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this? - [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions ### 该问题是否在FAQ中有解答？ | Is there an...

接入企业微信群的问题

bug

添加知识库后到问题

bug

4块4090部署推理性能问题

### Your current environment python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --max-model-len 8192 --served-model-name chat-v2.0 --model /workspace/chat-v2.0 --enforce-eager --tensor-parallel-size 4 我使用4 4090部署微调后的72b-int4位响应很慢要十几秒这是什么原因啊使用1 A100响应还可以还发现使用2张4090也能跑起来比4张卡块但是一段时间内没有响应 ![image](https://github.com/vllm-project/vllm/assets/50564015/314b5004-594e-49b6-8c1b-d57ccb0a0fb3) ### How would you...

usage

单卡A100和4卡4090推理结果差很多

1 使用qwen2-72B-instruct 训练后再gptq量化成4位 #777 的方式使用A100上做了填充 3 在A100使用vllm启动推理性能没出问题部署在4卡4090上推理效果差很多，甚至还会滔滔不绝，指令理解有问题等咋效果差别这么大是填充方式有问题吗而且填充后和官方的config.json不一样 config.json ![image](https://github.com/user-attachments/assets/28d23539-7fdd-494c-b9b1-03a7a3942f32)