opencompass
opencompass copied to clipboard
[Feature] Support MMMLU Benchmark
Pull Request: 多语言 MMMLU BenchMark评测实现
Motivation 在多语言环境下,已有的 MMLU 实现存在局限性。因此,我们希望通过本 PR 引入OpenAI的多语言评测集支持,观测模型在不同语言任务下的表现。目标是实现一个可以评测多种语言(如中文、法语、西班牙语等)的方法。
Modification 本 PR 修改了以下内容:
在数据集支持中增加多语言支持,包括语料的下载和预处理。 实现了多语言mmlu评测pipeline,使得模型能够在多种语言上进行评估。 更新了模型评估和基准测试,增加了多语言的评估指标。 BC-breaking (Optional) 此修改未引入向后不兼容的变化,所有旧的 API 和方法仍然可用,用户可以在新的多语言功能与原有功能之间自由切换。
Use cases (Optional) 本 PR 支持多语言能力,使得开发者可以在一个统一框架下评测多种语言的任务。 Checklist Before PR: Pre-commit 或其他代码检查工具已被用来修复潜在的语法问题。 Bug 修复已被完整的单元测试覆盖,导致 bug 的情况已在单元测试中添加。 修改已被完整的单元测试覆盖。如果没有,请添加更多单元测试以确保正确性。 文档已相应修改,包括文档字符串或示例教程。 After PR:
如果该修改对下游或其他相关项目有潜在影响,这个 PR 已经与这些项目进行了测试。 CLA 已签署,所有提交者在此 PR 中均已签署 CLA。