boquanzhou comments

Results 7 comments of


                                            boquanzhou

Qwen-72B-Chat-Int4推理时间

遇到了同样的问题，4张v100，让他讲个故事花了10多分钟...，该如何解决

[BUG] <title>GPU只有一张卡利用率高，其他基本上没有用到

> transformers的多卡推理是这样的，同时只有一张卡在计算，就是最原始的的模型并行。需要多卡同时计算的话，至少得tensor parallel了，请参考README部署部分使用FastChat+vLLM吧。但是好像现在int4还不支持vLLM吧，啥时候能支持啊

[BUG] <title>GPU只有一张卡利用率高，其他基本上没有用到

> 试试https://github.com/QwenLM/vllm-gptq 不支持v100... Error: ValueError: The quantization method gptq is not supported for the current GPU. Minimum capability: 75. Current capability: 70.

14B执行昇腾权重转换后，无法启动推理

> @qianwch 您好，目前昇腾暂时仅支持Qwen-7B的权重转换，对于Qwen-14B及其他规模模型的转换正在开发中。预计啥时候能开发好呢，其他规模的模型

14B执行昇腾权重转换后，无法启动推理

> > > @qianwch 您好，目前昇腾暂时仅支持Qwen-7B的权重转换，对于Qwen-14B及其他规模模型的转换正在开发中。 > > > > > > 预计啥时候能开发好呢，其他规模的模型 > > 对14B的支持预计本周可以开发完成，其他规模的模型暂无确定的时间。 14B的支持有了吗

调用function_call api时出错

> 已经修复，感谢反馈。这个例子是没问题了，但是如果query比较长，functions也比较多的情况，会返回： ![image](https://github.com/TigerResearch/TigerBot/assets/140485934/8ba78712-7d0b-4b9c-babd-8816e6051a2e)

30B的模型啥时候发布呢

预计啥时候发布呢？