SuperCLUE-Agent
SuperCLUE-Agent copied to clipboard

Published 20 hours ago •

→

Metadata

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准

Reame
Issues

Results 7 SuperCLUE-Agent issues

Sort by recently updated

工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用)

4

comment

如题， 1.工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用) 2.他们的测试集、测试方法、评估指标分别是啥呀？感谢您的回答：）

Will you release the benchmark dataset samples, evaluation metrics and methods?

Now we can only see the scores of these models, but I'm very interested in how you evaluate these agents.

Any full paper or report for reference?

Where to find the benchmark dataset?

建议优化一下测试用例

2

comment

恕我直言，从给的例子来看，这个评测和真实agent开发的情况离得太远了给的例子，大部分更像是在评测『创作』能力，或者更形象点，有的像教小白编程的问题…… agent是应用，agent需要的大模型能力主要是面向开发者的，建议参考openai 11月发布会的新功能，构造更接近真实场景的用例

每个task的指标怎么计算的在哪里来看？

2

comment

您好，想请教一下，就是每个task的指标怎么计算的在哪里看呀？有没有official的说明文档或者up-to-date的paper呢？谢谢！

期待加入 ERNIE 4.0

1

comment

About

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准

59

Stars

1

Forks

Watchers

Owner

← Metadata

59

Stars

1

Forks

Watchers

Owner

Metadata

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准