eval-scope 做了个界面化的版本，欢迎star

https://github.com/justplus/llm-eval 数据集管理，尤其是自定义数据集管理至关重要，因此基于evalscope做了个界面化的版本，欢迎star并本地部署给团队使用。

支持主观题、客观题、RAG的效果评估和性能评估。对自定义数据集及自定义指标做了基于jinja2的扩展，可以更灵活的使用自定义数据集。

🎯 评估能力多基准支持：内置主流评估基准，支持自定义评估标准智能评分：基于大模型的自动评分系统，支持多种评分策略数据集管理：支持QA、MCQ、RAG、自定义格式数据集的上传和管理批量评估：高效的批量评估处理，支持并发执行

📊 性能测试压力测试：支持并发性能测试，全面评估模型服务性能指标分析：详细的性能指标统计，包括延迟、吞吐量等关键指标可视化报告：直观的性能数据展示和分析报告

🛠 管理功能模型管理：统一管理多个LLM模型，支持API配置和密钥管理用户权限：完善的用户权限控制，支持多用户协作结果导出：支持评估结果导出为Excel等格式

🚀 Comming Soon 大模型安全评估(价值观对齐 + prompt诱导)

感谢evalscope框架出色的工作！

Jun 07 '25 06:06 justplus

Great work!

Jun 07 '25 14:06 Yunnglin

Great work!

Jun 17 '25 09:06 tghfly

感谢 @Yunnglin pinned~ 即将发布的版本支持了安全测评~~

Jun 27 '25 02:06 justplus

What a nice job!

Oct 17 '25 18:10 massif-01