eval-scope 当模型接口出错时的异常处理

功能描述 / Feature Description

请简要描述您希望添加的功能。 / Please briefly describe the feature you would like to request.

需求背景 / Background

我在使用百炼的接口跑评测集, 遇到一道高考历史题, 被百炼拦住了

{'error': {'code': 'data_inspection_failed', 'param': None, 'message': 'Input data may contain inappropriate content.'.....

问题: 7．（ 4分）抗日战争胜利后，山东根据地已有农会、工会、妇女会、青年团、\n儿童团等中国共产党领导的群众组织， 成员达 404万人，占根据地总人口的\n27%；中共党员占总人口的 1%左右，几乎村村有党员。这反映出（ 　　） \nA．革命工作的重心开始转移  B．工农武装割据局面已经形成   \nC．统一战线范围进一步扩大  D．国共力量对比变化趋势加强\n

接口报400错误, 导致整个评测中断. 但是从错误日志中很难定位到时哪条日志报错, 最后通过二分法找到.

预期行为 / Expected Behavior

期望能提供一些钩子支持调用方去做异常处理, 或者就丢弃这条用例,继续评测

其他信息 / Additional Information

还有其他相关信息吗？ / Any other relevant information?

Apr 16 '25 11:04 eightHundreds

好的，后面会添加一个参数来控制出错后的行为

Apr 16 '25 13:04 Yunnglin

open ai也出问题, 出问题的地方各不相同, open ai的响应码是200,但是内容是报错的

Apr 17 '25 05:04 eightHundreds

因为供应商的情况各种各样, 评测数据的也是各种各样.

我还是建议, 直接丢弃有问题的评测数据, 在规模量大的情况下, 少几条对结果没太大影响如果靠开发者在异常回调那边手动补模型返回结果那代码是写不完的

Apr 17 '25 06:04 eightHundreds

好的，后面会添加一个参数来控制出错后的行为

或者来两个参数

重试次数
允许错误次数，将接口出错的回答直接当答错/无回答处理。

May 08 '25 04:05 bash99

main分支新增了ignore_errors参数，设置为true可以跳过模型生成过程中的报错

May 08 '25 09:05 Yunnglin

感谢你的反馈！我们将关闭此问题。如果您有任何疑问，请随时重新打开它。如果EvalScope对您有所帮助，欢迎给我们点个STAR以示支持，谢谢！

Jun 03 '25 06:06 Yunnglin