boquanzhou
boquanzhou
遇到了同样的问题,4张v100,让他讲个故事花了10多分钟...,该如何解决
> transformers的多卡推理是这样的,同时只有一张卡在计算,就是最原始的的模型并行。需要多卡同时计算的话,至少得tensor parallel了,请参考README部署部分使用FastChat+vLLM吧。 但是好像现在int4还不支持vLLM吧,啥时候能支持啊
> 试试https://github.com/QwenLM/vllm-gptq 不支持v100... Error: ValueError: The quantization method gptq is not supported for the current GPU. Minimum capability: 75. Current capability: 70.
> @qianwch 您好,目前昇腾暂时仅支持Qwen-7B的权重转换,对于Qwen-14B及其他规模模型的转换正在开发中。 预计啥时候能开发好呢,其他规模的模型
> > > @qianwch 您好,目前昇腾暂时仅支持Qwen-7B的权重转换,对于Qwen-14B及其他规模模型的转换正在开发中。 > > > > > > 预计啥时候能开发好呢,其他规模的模型 > > 对14B的支持预计本周可以开发完成,其他规模的模型暂无确定的时间。 14B的支持有了吗
> 已经修复,感谢反馈。 这个例子是没问题了,但是如果query比较长,functions也比较多的情况,会返回: 
预计啥时候发布呢?