open-research icon indicating copy to clipboard operation
open-research copied to clipboard

[Research Idea] 通过行为历史数据 Events Data 来分析刷 stars 的行为

Open yoyo-wu98 opened this issue 2 years ago • 3 comments

Description

根据 Frank 在他的文章中提到的这一步 https://github.com/frank-zsy/blog/blob/9f43cfcf1064ef873002a3a879afb82ce0f29abf/source/_posts/how_to_measure_open_source_1.md?plain=1#L27 我觉得 star 的作用被太过低估了。

当然这也是可以理解的,其主要原因在于:

  1. 确实有太多没有那么大价值的 repository (如 Papers collections,leetcode 题解库等)被刷了过多的 stars;
  2. stars 的数据采集吃力不讨好,根据 open-digger 中的 issue 的一个回答 可知: Github API 针对实时 stars 统计的 rate limit 会限制我们的研究数据采集,同时 GH Archive 的关于 stars 的统计方法也并不符合我们的需求,所以很难获得优质的数据集。

不过这些问题不是没有解决方法的:

  1. 我们可以通过训练出一个点赞用户的画像模型来判断刷 stars 的人都会刷些什么 repository 以及他们刷 stars 的行为是否有某些共性规律;
  2. 根据 Github API 我们可以非实时的,定时分批次 / 分布式的获取这些 stars 数据。

不过这一研究项目是否有足够的价值和意义尚未可知,暂时只在想法阶段,并不一定值得去研究。

yoyo-wu98 avatar Jul 19 '22 05:07 yoyo-wu98

这个俺也想过 与其说是刷star 不如说是否通过用户的star记录做用户画像,你觉得呢 我也没怎么想过

xgdyp avatar Jul 19 '22 06:07 xgdyp

我先考虑有时间做个可用的数据集/数据获取方法。

之后再想想方向上的问题吧。

TODOs

  • [ ] 数据集制作

yoyo-wu98 avatar Jul 19 '22 08:07 yoyo-wu98

需要了解以下几点:

  1. 要解决的问题是什么?
  2. 用户画像构建的特征有哪些
  3. 数据集制作有哪些特点?(大小、特定的区域)

bifenglin avatar Jul 19 '22 08:07 bifenglin