eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

是否支持多卡推理

Open dgzxx-2000 opened this issue 7 months ago • 15 comments

功能描述 / Feature Description

请简要描述您希望添加的功能。 / Please briefly describe the feature you would like to request.

需求背景 / Background

为什么需要这个功能? / Why is this feature needed?

预期行为 / Expected Behavior

这个功能应该如何工作? / How should this feature work?

其他信息 / Additional Information

还有其他相关信息吗? / Any other relevant information?

dgzxx-2000 avatar May 22 '25 01:05 dgzxx-2000

需求已收到,后续会尽量支持该功能

Yunnglin avatar May 22 '25 08:05 Yunnglin

@Yunnglin 有的测试数据比较大,单卡测试速度慢,怎么进行多卡评测呢。

WeihongM avatar May 28 '25 08:05 WeihongM

@WeihongM 建议使用vLLM设置tensor parallel参数拉起模型服务来测试

Yunnglin avatar May 28 '25 12:05 Yunnglin

@Yunnglin 我理解这只是启动了多个服务,起了多个服务后,在评测的时候还需要数据分别请求各个端口拿到输出,->汇总结果,->最后再输出指标? 这看起来很麻烦,有方便的自动化脚本吗?

WeihongM avatar May 28 '25 12:05 WeihongM

@Yunnglin 我理解这只是启动了多个服务,起了多个服务后,在评测的时候还需要数据分别请求各个端口拿到输出,->汇总结果,->最后再输出指标? 这看起来很麻烦,有方便的自动化脚本吗?

这种脚本还没有

Yunnglin avatar May 28 '25 12:05 Yunnglin

@Yunnglin 请问近期会实现多卡评测吗。有的数据太大,单卡评测速度比较慢。

WeihongM avatar May 28 '25 12:05 WeihongM

@Yunnglin 用vllm拉起模型,然后用evalscope跑测试时,总是会把vllm的服务跑崩,请问我可不可以修改evalscope的代码,让其支持本地部署,而不是提供一个api出来呢

1204922635 avatar Jul 22 '25 11:07 1204922635

@1204922635 如果需要自定义模型评测,可以参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/advanced_guides/custom_model.html#id1

Yunnglin avatar Jul 22 '25 12:07 Yunnglin

老生常谈,请求加上多卡的推理,否则这个有使用瓶颈。。。 尤其是稍微大一点的模型,都会卡很久,是否可以考虑提供官方ray + vllm的启动命令入口

Oukaishen avatar Nov 17 '25 07:11 Oukaishen

@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?

Yunnglin avatar Nov 18 '25 07:11 Yunnglin

通过SGLang来支持多卡推理

dgzxx-2000 avatar Nov 18 '25 08:11 dgzxx-2000

@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?

您好,感谢您的回复,不知道是否你也在微信群内,那样可以更加快讨论。

是的,我是想针对稍微大的数据集,比如说10w数据。可以在单机8卡的情况下,可以每张卡1/8这样并行。最后再做一些统计工作汇总

Oukaishen avatar Nov 18 '25 09:11 Oukaishen

@Oukaishen对于增加的模型,vllm 本身支持张量并行。你希望支持的是 evalscope 通过ray来启动多个vllm服务吗?

您好,感谢您的回复,不知道您是否在微信群内,这样可以多快讨论。

是的,我是想针对一点大的数据集,比如10w个数据。可以在单机8卡的情况下,可以每张卡1/8这样的玩具。最后再做一些统计工作汇总

哪里可以加入微信群呢

dgzxx-2000 avatar Nov 19 '25 08:11 dgzxx-2000

@dgzxx-2000 你可以扫描readme里的微信群二维码来加群

Yunnglin avatar Nov 19 '25 12:11 Yunnglin

@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?

您好,感谢您的回复,不知道是否你也在微信群内,那样可以更加快讨论。

是的,我是想针对稍微大的数据集,比如说10w数据。可以在单机8卡的情况下,可以每张卡1/8这样并行。最后再做一些统计工作汇总

这种 data-parallel 的方式后续会迭代实现,涉及到的代码修改可能比较多

Yunnglin avatar Nov 19 '25 12:11 Yunnglin