eval-scope
eval-scope copied to clipboard
health bench数据集精度测试报错
自查清单
在提交 issue 之前,请确保您已完成以下步骤:
问题描述
请简要描述您遇到的问题。 health bench数据集精度测试报错: 第一个子集 测完后 review后报错
EvalScope 版本(必填)
v1.2.0
使用的工具
- [ ] Native / 原生框架
- [ ] Opencompass backend
- [ ] VLMEvalKit backend
- [ ] RAGEval backend
- [ ] Perf / 模型推理压测工具
- [ ] Arena / 竞技场模式
执行的代码或指令
evalscope eval
--model /models/Ling-flash-2.0
--api-url http://0.0.0.0:30000/v1/chat/completions
--api-key EMPTY
--eval-type server
--datasets health_bench
--timeout 10000
--eval-batch-size 8
--stream
--use-cache /workspace/evalscope/outputs/20251128_114536
--judge-strategy llm
--judge-model-args '{"api_url": "http://10.213.208.143:30000/v1/chat/completions", "model_id": "/workspace/models/DeepSeek-R1-w4a8-v3"}'
请提供您执行的主要代码或指令。
错误日志
请粘贴完整的错误日志或控制台输出。
运行环境
- 操作系统:
- Python版本:
其他信息
如果有其他相关信息,请在此处提供。