opencompass [Feature] Support MMMLU Benchmark

[Feature] Support MMMLU Benchmark

Open BobTsang1995 opened this issue 4 months ago • 1 comments

Pull Request: 多语言 MMMLU BenchMark评测实现

Motivation 在多语言环境下，已有的 MMLU 实现存在局限性。因此，我们希望通过本 PR 引入OpenAI的多语言评测集支持，观测模型在不同语言任务下的表现。目标是实现一个可以评测多种语言（如中文、法语、西班牙语等）的方法。

Modification 本 PR 修改了以下内容：

在数据集支持中增加多语言支持，包括语料的下载和预处理。实现了多语言mmlu评测pipeline，使得模型能够在多种语言上进行评估。更新了模型评估和基准测试，增加了多语言的评估指标。 BC-breaking (Optional) 此修改未引入向后不兼容的变化，所有旧的 API 和方法仍然可用，用户可以在新的多语言功能与原有功能之间自由切换。

Use cases (Optional) 本 PR 支持多语言能力，使得开发者可以在一个统一框架下评测多种语言的任务。 Checklist Before PR: Pre-commit 或其他代码检查工具已被用来修复潜在的语法问题。 Bug 修复已被完整的单元测试覆盖，导致 bug 的情况已在单元测试中添加。修改已被完整的单元测试覆盖。如果没有，请添加更多单元测试以确保正确性。文档已相应修改，包括文档字符串或示例教程。 After PR:

如果该修改对下游或其他相关项目有潜在影响，这个 PR 已经与这些项目进行了测试。 CLA 已签署，所有提交者在此 PR 中均已签署 CLA。

Sep 26 '24 08:09 BobTsang1995

opencompass opencompass copied to clipboard

[Feature] Support MMMLU Benchmark

opencompass
opencompass copied to clipboard