eval-scope 是否支持多卡推理

功能描述 / Feature Description

请简要描述您希望添加的功能。 / Please briefly describe the feature you would like to request.

需求背景 / Background

为什么需要这个功能？ / Why is this feature needed?

预期行为 / Expected Behavior

这个功能应该如何工作？ / How should this feature work?

其他信息 / Additional Information

还有其他相关信息吗？ / Any other relevant information?

May 22 '25 01:05 dgzxx-2000

需求已收到，后续会尽量支持该功能

May 22 '25 08:05 Yunnglin

@Yunnglin 有的测试数据比较大，单卡测试速度慢，怎么进行多卡评测呢。

May 28 '25 08:05 WeihongM

@WeihongM 建议使用vLLM设置tensor parallel参数拉起模型服务来测试

May 28 '25 12:05 Yunnglin

@Yunnglin 我理解这只是启动了多个服务，起了多个服务后，在评测的时候还需要数据分别请求各个端口拿到输出，->汇总结果，->最后再输出指标？这看起来很麻烦，有方便的自动化脚本吗？

May 28 '25 12:05 WeihongM

@Yunnglin 我理解这只是启动了多个服务，起了多个服务后，在评测的时候还需要数据分别请求各个端口拿到输出，->汇总结果，->最后再输出指标？这看起来很麻烦，有方便的自动化脚本吗？

这种脚本还没有

May 28 '25 12:05 Yunnglin

@Yunnglin 请问近期会实现多卡评测吗。有的数据太大，单卡评测速度比较慢。

May 28 '25 12:05 WeihongM

@Yunnglin 用vllm拉起模型，然后用evalscope跑测试时，总是会把vllm的服务跑崩，请问我可不可以修改evalscope的代码，让其支持本地部署，而不是提供一个api出来呢

Jul 22 '25 11:07 1204922635

@1204922635 如果需要自定义模型评测，可以参考这个文档：https://evalscope.readthedocs.io/zh-cn/latest/advanced_guides/custom_model.html#id1

Jul 22 '25 12:07 Yunnglin

老生常谈，请求加上多卡的推理，否则这个有使用瓶颈。。。尤其是稍微大一点的模型，都会卡很久，是否可以考虑提供官方ray + vllm的启动命令入口

Nov 17 '25 07:11 Oukaishen

@Oukaishen 对于较大的模型，vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗？

Nov 18 '25 07:11 Yunnglin

通过SGLang来支持多卡推理

Nov 18 '25 08:11 dgzxx-2000

@Oukaishen 对于较大的模型，vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗？

您好，感谢您的回复，不知道是否你也在微信群内，那样可以更加快讨论。

是的，我是想针对稍微大的数据集，比如说10w数据。可以在单机8卡的情况下，可以每张卡1/8这样并行。最后再做一些统计工作汇总

Nov 18 '25 09:11 Oukaishen

@Oukaishen对于增加的模型，vllm 本身支持张量并行。你希望支持的是 evalscope 通过ray来启动多个vllm服务吗？

您好，感谢您的回复，不知道您是否在微信群内，这样可以多快讨论。

是的，我是想针对一点大的数据集，比如10w个数据。可以在单机8卡的情况下，可以每张卡1/8这样的玩具。最后再做一些统计工作汇总

哪里可以加入微信群呢

Nov 19 '25 08:11 dgzxx-2000

@dgzxx-2000 你可以扫描readme里的微信群二维码来加群

Nov 19 '25 12:11 Yunnglin

@Oukaishen 对于较大的模型，vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗？

您好，感谢您的回复，不知道是否你也在微信群内，那样可以更加快讨论。

是的，我是想针对稍微大的数据集，比如说10w数据。可以在单机8卡的情况下，可以每张卡1/8这样并行。最后再做一些统计工作汇总

这种 data-parallel 的方式后续会迭代实现，涉及到的代码修改可能比较多

Nov 19 '25 12:11 Yunnglin