是否支持多卡推理
功能描述 / Feature Description
请简要描述您希望添加的功能。 / Please briefly describe the feature you would like to request.
需求背景 / Background
为什么需要这个功能? / Why is this feature needed?
预期行为 / Expected Behavior
这个功能应该如何工作? / How should this feature work?
其他信息 / Additional Information
还有其他相关信息吗? / Any other relevant information?
需求已收到,后续会尽量支持该功能
@Yunnglin 有的测试数据比较大,单卡测试速度慢,怎么进行多卡评测呢。
@WeihongM 建议使用vLLM设置tensor parallel参数拉起模型服务来测试
@Yunnglin 我理解这只是启动了多个服务,起了多个服务后,在评测的时候还需要数据分别请求各个端口拿到输出,->汇总结果,->最后再输出指标? 这看起来很麻烦,有方便的自动化脚本吗?
@Yunnglin 我理解这只是启动了多个服务,起了多个服务后,在评测的时候还需要数据分别请求各个端口拿到输出,->汇总结果,->最后再输出指标? 这看起来很麻烦,有方便的自动化脚本吗?
这种脚本还没有
@Yunnglin 请问近期会实现多卡评测吗。有的数据太大,单卡评测速度比较慢。
@Yunnglin 用vllm拉起模型,然后用evalscope跑测试时,总是会把vllm的服务跑崩,请问我可不可以修改evalscope的代码,让其支持本地部署,而不是提供一个api出来呢
@1204922635 如果需要自定义模型评测,可以参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/advanced_guides/custom_model.html#id1
老生常谈,请求加上多卡的推理,否则这个有使用瓶颈。。。 尤其是稍微大一点的模型,都会卡很久,是否可以考虑提供官方ray + vllm的启动命令入口
@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?
通过SGLang来支持多卡推理
@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?
您好,感谢您的回复,不知道是否你也在微信群内,那样可以更加快讨论。
是的,我是想针对稍微大的数据集,比如说10w数据。可以在单机8卡的情况下,可以每张卡1/8这样并行。最后再做一些统计工作汇总
@Oukaishen对于增加的模型,vllm 本身支持张量并行。你希望支持的是 evalscope 通过ray来启动多个vllm服务吗?
您好,感谢您的回复,不知道您是否在微信群内,这样可以多快讨论。
是的,我是想针对一点大的数据集,比如10w个数据。可以在单机8卡的情况下,可以每张卡1/8这样的玩具。最后再做一些统计工作汇总
哪里可以加入微信群呢
@dgzxx-2000 你可以扫描readme里的微信群二维码来加群
@Oukaishen 对于较大的模型,vllm本身支持tensor-parallel。你希望支持的是evalscope通过ray来启动多个vllm服务吗?
您好,感谢您的回复,不知道是否你也在微信群内,那样可以更加快讨论。
是的,我是想针对稍微大的数据集,比如说10w数据。可以在单机8卡的情况下,可以每张卡1/8这样并行。最后再做一些统计工作汇总
这种 data-parallel 的方式后续会迭代实现,涉及到的代码修改可能比较多