open-research icon indicating copy to clipboard operation
open-research copied to clipboard

[Reaserch Idea] 复杂网络数据蒸馏

Open bifenglin opened this issue 3 years ago • 2 comments

最近处理github数据进行图模型构建遇见了不少问题:

  1. 图数据规模过于巨大,vscode一个月的issue pr协作关系网络就有300多M的网络图模型数据。
  2. 构建的图网络结构理应具有相似性质,可以通过相似矩阵或者谱方法进行验证。

目前还没有进行模型训练阶段,但是仅仅通过以上两点问题,我在思考是否有将大规模数据提出成小规模数据,保留其特征的一些方案。我认为可以提炼出一个科学问题。

想法来源于:

  1. 复杂网络模型演化
  2. 知识蒸馏(Knowledge Distilling)论文 Distilling the Knowledge in a Neural Network
  3. 图结构特征

目前先将我的想法列出来,后续对这部分比较感兴趣,也可以用来解决数据集问题。进而有可能对OpenPerf产生指导性作用。

bifenglin avatar May 18 '22 14:05 bifenglin

貌似不错,图数据肯定是我们最重点的方向~

will-ww avatar May 18 '22 14:05 will-ww

补充下社交关系图数据规模巨大的原因是产生了笛卡尔积,例子:3个人对一个issue进行协作,理论上是3条log数据,可是变成图数据就是$C_{3}^{2} * 2 $条数据也就是6条,若是4个人对一个issue进行协作,有4条数据,变成图数据就$C_{4}^{2} * 2$也就是12条。图结构数据数量随着社交关系成指数级增加。

bifenglin avatar May 18 '22 14:05 bifenglin