eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

做了个界面化的版本,欢迎star

Open justplus opened this issue 6 months ago • 4 comments

https://github.com/justplus/llm-eval 数据集管理,尤其是自定义数据集管理至关重要,因此基于evalscope做了个界面化的版本,欢迎star并本地部署给团队使用。

支持主观题、客观题、RAG的效果评估和性能评估。 对自定义数据集及自定义指标做了基于jinja2的扩展,可以更灵活的使用自定义数据集。

🎯 评估能力 多基准支持:内置主流评估基准,支持自定义评估标准 智能评分:基于大模型的自动评分系统,支持多种评分策略 数据集管理:支持QA、MCQ、RAG、自定义格式数据集的上传和管理 批量评估:高效的批量评估处理,支持并发执行

📊 性能测试 压力测试:支持并发性能测试,全面评估模型服务性能 指标分析:详细的性能指标统计,包括延迟、吞吐量等关键指标 可视化报告:直观的性能数据展示和分析报告

🛠 管理功能 模型管理:统一管理多个LLM模型,支持API配置和密钥管理 用户权限:完善的用户权限控制,支持多用户协作 结果导出:支持评估结果导出为Excel等格式

🚀 Comming Soon 大模型安全评估(价值观对齐 + prompt诱导)

感谢evalscope框架出色的工作!

justplus avatar Jun 07 '25 06:06 justplus

Great work!

Yunnglin avatar Jun 07 '25 14:06 Yunnglin

Great work!

tghfly avatar Jun 17 '25 09:06 tghfly

感谢 @Yunnglin pinned~ 即将发布的版本支持了安全测评~~

justplus avatar Jun 27 '25 02:06 justplus

What a nice job!

massif-01 avatar Oct 17 '25 18:10 massif-01