Grank icon indicating copy to clipboard operation
Grank copied to clipboard

grank 项目的可能出现误差的点

Open bestony opened this issue 5 years ago • 0 comments

可能导致误差的点

1. 丢弃项目中未设定时间的 commit / pr

在使用 GraphQL 抓取数据时,发现了部分 commit / pr 是未标注时间的,未确保这些 dirty data 不影响项目的分析,丢弃了这部分数据。但是同样可能导致数据分析的结果不够精确。

相关代码位置:https://github.com/LCTT/Grank/blob/53790555c6f06a3bbcb22f9211003c0907c51652/grank/script/activity.py#L76

2. 邮箱不精确

在使用 GraphQL 抓取数据时,发现部分 commit/pr 的email 为 github 域下的,考虑到无法对 Github 域下的项目分析其所属的企业和个人,将此部分数据丢弃。以确保社区化分析的准确性。

https://github.com/LCTT/Grank/blob/7b00abb67f1c0dde18ddb3ac8da2046f722e3444/grank/libs/helpers.py#L229-L234

bestony avatar Oct 01 '18 02:10 bestony