做了个界面化的版本,欢迎star
https://github.com/justplus/llm-eval 数据集管理,尤其是自定义数据集管理至关重要,因此基于evalscope做了个界面化的版本,欢迎star并本地部署给团队使用。
支持主观题、客观题、RAG的效果评估和性能评估。 对自定义数据集及自定义指标做了基于jinja2的扩展,可以更灵活的使用自定义数据集。
🎯 评估能力 多基准支持:内置主流评估基准,支持自定义评估标准 智能评分:基于大模型的自动评分系统,支持多种评分策略 数据集管理:支持QA、MCQ、RAG、自定义格式数据集的上传和管理 批量评估:高效的批量评估处理,支持并发执行
📊 性能测试 压力测试:支持并发性能测试,全面评估模型服务性能 指标分析:详细的性能指标统计,包括延迟、吞吐量等关键指标 可视化报告:直观的性能数据展示和分析报告
🛠 管理功能 模型管理:统一管理多个LLM模型,支持API配置和密钥管理 用户权限:完善的用户权限控制,支持多用户协作 结果导出:支持评估结果导出为Excel等格式
🚀 Comming Soon 大模型安全评估(价值观对齐 + prompt诱导)
感谢evalscope框架出色的工作!
Great work!
Great work!
感谢 @Yunnglin pinned~ 即将发布的版本支持了安全测评~~
What a nice job!