open-research icon indicating copy to clipboard operation
open-research copied to clipboard

[01-06] 以利益相关者需求为驱动的构建开源benchmark方法 - 以Issue分配任务为例

Open zhingoll opened this issue 9 months ago • 0 comments

Description

Description

汇报人:张震

本次分享包含:

  1. 开源研究中 Benchmark 的设计方法 - 以利益相关者需求为驱动
  2. 根据该方法实现的一个案例demo - 为仓库中Issue分配合适的解决者

以利益相关者需求为驱动的构建开源benchmark方法

1. 背景与挑战

  • Benchmark 是连接理论与实践的重要桥梁,常用于评估方法的性能与价值。
  • 主要挑战:
    • 数据历史性:静态benchmark无法反映当前生态需求[1][2]。
    • 利益相关者需求:不同群体对评估的期望不同[3]。

2. 提出的框架

以利益相关者需求为驱动,设计动态且具有现实指导意义的 Benchmark:

  1. 需求识别:识别关键利益相关者及其需求。
  2. 任务转化与基准实施:将需求转化为具体任务并设计标准化模拟环境。
  3. 动态数据集维护:保持 Benchmark 与最新生态一致。
  4. 评估功能设计:结合仿真实验与真实反馈,反映方法实际价值。
  5. 结果共享与讨论:促进 Benchmark 持续优化。
  6. 基准测试即服务 (BaaS):工具化服务提供,支持实时反馈与互动。

3. 优势与意义

  • 通过嵌入数据集的持续动态更新和利益相关者的需求,实现 Benchmark 从实际需求中来,到实际需求中去。
  • 打通OpenDigger、OpenPerf和HyperCRX。

4. 案例分享

Issue-assigner-BaaS


相关文献

1、GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions - ICSE 2024 2、AI and the everything in the whole wide world benchmark - NeurIPS 2021 3、Evaluatology: The science and engineering of evaluation


本次分享旨在探索如何在理论创新与实际应用间找到平衡。

欢迎大家针对方法、实验设计及应用场景展开讨论、批评、指正~

zhingoll avatar Jan 04 '25 13:01 zhingoll