open-research
open-research copied to clipboard
[CFP] Bench'22
Bench'22论文征集中,欢迎各位老师和同学投稿(截止时间是2022年7月28日,会议地址为https://www.benchcouncil.org/bench22/index.html。 Bench'22会议将于2022年11月7-9日举办,双盲评审,录取论文将发表在Springer LNCS (EI检索)上,优秀论文将会推荐到BenchCouncil Transactions on Benchmarks, Standards, and Evaluation (TBench)刊物上。会议将颁发BenchCouncil成就奖(3000美元)、BenchCouncil新星奖(1000美元)、BenchCouncil最佳论文奖(1000美元)、以及计算机体系结构领域及其他领域的BenchCouncil杰出博士论文奖(各1000美元,总计2000美元)。

Important Dates:
- Full Papers: July 28, 2022
- Notification: September 6, 2022
- Final Papers Due: October 11, 2022
我们可以规划下 OpenPerf 的系列文章~
我这一周看一看这个会议的一些论文,想一想写什么文章。
我这一周看一看这个会议的一些论文,想一想写什么文章。
这是个新的会议,学院本身也是这个会议的发起方。可以考虑写个 Position paper~
https://xlab2017.yuque.com/me1x4f/allspark/ngewgf 估计Jianfeng Zhan老师是这个会议发起人之一,上面链接是我读了他在这个期刊上的写的一篇论文,这篇文章是benchmark综述性文章,简单的说了benchmark的起源、benchmark的5个类型、当前的一些挑战建议。然后又对BenchCouncil这个期刊进行了一些宣传,主要讲了现在大多数期刊的一些问题,然后列出了针对期刊的一些改进措施。
这篇挺棒的!詹剑锋老师是我们的好朋友,基本上每年都会一起搞点活动。
这个会议和期刊都是他牵头发起创办的,所以我会关注这个。想法就是把我们的 OpenPerf 放到这个下面去孵化,一起把我们国家自己的 Benchmark 生态做起来,拥有话语权。
我们支持 BenchCouncil,反过来我们自己也会收益~
我的想法是,我们先写一篇 OpenPerf 的 position paper,把我们的整个理念和思路构建好,然后用几个数据集例子和挑战(连接预测、时序数据、价值网络等),应该还是可以的,关键是整个框架需要构建好。
关于论文框架我这边有两个创新点可以写。
- 有部分想法是开源问题整理一些数据集,类似于他Call for establishing benchmark science and engineering中的第五类算法场景的最佳实践,在这些数据集测试best practice。
- 是针对于图数据集的研究,是论文中的第三类数据集,我发现在ogb的图数据集还是有些问题,比如他们没有关注到图数据的网络模型,不同的图数据具有不同的网络模型特征,从另一个角度推进针对网络模型特征的研究。
基于上面的两个创新点,我是选择一个来做还是两个都考虑做一下?
关于论文框架我这边有两个创新点可以写。
- 有部分想法是开源问题整理一些数据集,类似于他Call for establishing benchmark science and engineering中的第五类算法场景的最佳实践,在这些数据集测试best practice。
- 是针对于图数据集的研究,是论文中的第三类数据集,我发现在ogb的图数据集还是有些问题,比如他们没有关注到图数据的网络模型,不同的图数据具有不同的网络模型特征,从另一个角度推进针对网络模型特征的研究。
基于上面的两个创新点,我是选择一个来做还是两个都考虑做一下?
我们可以定位为一个交叉集成创新的框架型文章:
- 提出 OpenPerf 的整体框架
- 将图数据和其上的任务作为第一个实现,也是 OpenPerf 最重要的特征
- 用2~3个数据集极其任务,作为场景和最佳实践,给出一些统计数据和实验比较即可
这几个内容写好,基本上构成一个完整的论文没问题了~
@will-ww 不小心删了评论。
嗯嗯,目前进度还是在想一些问题和数据集,现在数据集的一些维度是:
- 数量级 : 大中小
- 同质异质网络
- 问题:点 边 图
- 有向图、无向图
- 想到的task:多分类、二分类、链接预测
我这一周看一看这个会议的一些论文,想一想写什么文章。
这是个新的会议,学院本身也是这个会议的发起方。可以考虑写个 Position paper~
关于 OpenPerf 的 position paper,准备先固定以下几个维度:
- 首先固定 BenchCouncil 框架,我们先选择第三类 benchmarks 重点开展;
- 在第三类 benchmark 下,我们选择图数据集来重点发展;
- 在图数据集下,我们选择具有代表性的三类图数据来发展,分别是:协作网络数据、引用网络数据、以及依赖网络数据,分别代表了生产关系、知识流动、以及依赖关系,刻画开源社区
- 进而,我们再选择三类典型的机器学习任务:节点分类、网络排序、链接预测
- 上述两个3*3进行交叉,就可以做成我们的一个MVP,在此基础上进行迭代。
3*3 一共 9 种,有点多,我们选三个有代表性的,然后用一个实际场景与问题进行牵引:
1、顶层问题:开源软件生态的影响力提升与持续性发展
2、为了研究上述问题,分解成三个子的问题场景
- 开源知识网络中的的节点分类:基于引用网络的节点分类
- 开源协作网络中的影响力排序:基于协作网络的节点排序
- 开源供应链网络中的风险预测:基于依赖网络的链接预测
3、建设上述内容
- 找到符合上述上个场景的实际问题
- 构建上述三个网络的数据集
- 构建完整的三个 benchmark,包括数据集、任务、评价指标、初步实验
几个不错的参考资料包括:
- 针对上面的1,构建顶层问题:Towards Engineering Free/Libre Open Source Software (FLOSS) Ecosystems for Impact and Sustainability
- 三类主要数据集:协作网络(@frank-zsy )、引用网络(@birdflyi )、依赖网络(@bifenglin )
- 异质信息网络上的任务:Heterogeneous Information Network Analysis and Applications(有中文版)
- 图机器学习:https://www.hep.com.cn/book/show/4ba8d7cb-0684-4e56-be36-9c68725ad953
根据KDD的datamining的流程,第一步是需要确定意义和目标是什么:
开源知识网络中的的节点分类:基于引用网络的节点分类 开源协作网络中的影响力排序:基于协作网络的节点排序 开源供应链网络中的风险预测:基于依赖网络的链接预测
这些问题是需要找到这些数据集的子集进行分析,但是我认为问题为导向,再完善数据集,而且根据之前的经验,构建网络的大小是个问题,例如之前构建的repo的关联网络,与其他社交网络对比后,边数与点的节点比例出现严重的不正常问题(过于密集),现在猜想的一部分原因是机器人在多个项目中进行工作,导致项目的链接较密集,另一个原因是降维导致的边确实会过于密集。那么根据目标是对repo进行标签分类,那么根据这个目标需要采取一定措施来筛选掉一些边而不影响结果的准确性。 回到之前的问题,这些网络确实是很有意义的数据,但是还是需要根据具体问题来制作网络数据,而不是制作出网络数据然后再从中分析。根据子的问题场景,引用网络的节点分类,引用网络的节点排序,引用网络的链接预测可能就是三个不同的网络。节点分类可能关注局部的标签之前的联系,节点排序可能关注整体网络的性质,链接预测可能需要增加一些依赖网络的数据集。而且不同的任务可能还需要分同质还是异质。 当然要是针对三个网络做一个大而全的数据集当成基础设施提供给大家,然后大家从中进行处理整理成针对不同的问题场景适用的数据集是没有任何问题的。