lxb0425
lxb0425
国产GPU得支持
请问下 支持哪些国产GPU本地化部署啊
你好 我正在使用8张4090做qwen2-72B-instruct-int4-gptq的并发压测和长文本 我使用的是vllm部署 命令如下 chat-10 是微调后再量化填充后的的版本 python -m vllm.entrypoints.openai.api_server --model /workspace/chat-2.0 --host 0.0.0.0 --port 7864 --tensor-parallel-size 8 --max-model-len 30000 --served-model-name chat-v2.0 --gpu-memory-utilization 0.9 conf.json的yarn配置和不配置都试过了 1 文本输入8000个字 单独1个线程没问题 响应得36s左右,几个线程就垮了 是方式不对吗还是其他原因 或者有什么工具可以让我测试吗...
api的问题
有没有api接入到其他系统 webui.py app.py 启动的是界面 有没有接口传入图片 文本生成视频回来的那种
### Your current environment 2*A100 配置 启动项 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 7864 --max-model-len 8000 --served-model-name chat-v2.0 --model /workspace/sdata/checkpoint-140-merged --enforce-eager --tensor-parallel-size 2 --gpu-memory-utilization 0.95 ### Model Input Dumps ...
### Has this been raised before? - [X] I have checked [the GitHub README](https://github.com/QwenLM/Qwen2.5). - [X] I have checked [the Qwen documentation](https://qwen.readthedocs.io) and cannot find an answer there. - [X]...
 使用的0.1.10 启动的是bash run_server_2pass.sh   docker里修改了websocket-server-2pass 文件 杀掉funasr-wss-server-2pass 重新启动 为啥没有生效啊 也尝试重启容器 依然没生效 重新编译 但是build下面的bin 只生成了几个文件 都没有生成funasr-wss-server-2pass 文件 中间error了 
### Your current environment ```text The output of `python collect_env.py` ``` ### How would you like to use vllm 我正在使用一张A100 部署的72B量化模型 这是启动脚本 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --max-model-len 9000 --served-model-name...
**例行检查** [//]: # '方框内填 x 表示打钩' - [ ] 我已确认目前没有类似 issue - [ ] 我已完整查看过项目 README,以及[项目文档](https://doc.tryfastgpt.ai/docs/intro/) - [ ] 我使用了自己的 key,并确认我的 key 是可正常使用的 - [ ] 我理解并愿意跟进此 issue,协助测试和提供反馈 - [x]...