SuperCLUE-Agent icon indicating copy to clipboard operation
SuperCLUE-Agent copied to clipboard

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准

Results 7 SuperCLUE-Agent issues
Sort by recently updated
recently updated
newest added

如题, 1.工具使用的四大能力之间有什么区别吗?(调用api,检索api,规划api,通用工具使用) 2.他们的测试集、测试方法、评估指标分别是啥呀? 感谢您的回答:)

Now we can only see the scores of these models, but I'm very interested in how you evaluate these agents.

恕我直言,从给的例子来看,这个评测和真实agent开发的情况离得太远了 给的例子,大部分更像是在评测『创作』能力,或者更形象点,有的像教小白编程的问题…… agent是应用,agent需要的大模型能力主要是面向开发者的,建议参考openai 11月发布会的新功能,构造更接近真实场景的用例

您好, 想请教一下,就是每个task的指标怎么计算的在哪里看呀?有没有official的说明文档或者up-to-date的paper呢? 谢谢!