hacking-force icon indicating copy to clipboard operation
hacking-force copied to clipboard

标注「中国」的标准

Open stevending1st opened this issue 3 years ago • 9 comments

由于个人信息的隐私性,无法判断某一账号的使用者是否是拥有合法权利的中国公民。 窃以为目前下面几个参考标准可辅助判定为中国:

  1. 出生地为中国(父母至少一方具有中国国籍)
  2. 目前生活在中国
  3. 使用汉语(针对本项目要考虑中国以外使用汉语的地区)

一般情况下:符合 1-3 就可以标注为「中国」。 不符合 1 的基本可判定非中国人。 最麻烦的是 2 和 3,已经移民他国的人,或者取得其他国家的绿卡的人无法判定;也无法确切判定该用户是否是中国之外的华语用户。

stevending1st avatar Jan 16 '22 06:01 stevending1st

hi @stevending1st 感谢你的反馈和建议,项目组也有在思考这个问题,其实想把整个目标对象扩充到整个华人群体,不过这个势必标注难度会加大。所以整个过程其实蛮需要广大社区开发者的一起参与,是一个长期的过程,可以自己发现了认领,也可以社区的用户知道这个 id 的情况反馈一些基本的不涉及隐私的信息。

同时也希望借助这个机会,把 ai bot 这些机器人🤖账号也排一下,因为觉得未来 ai 机器人也是重要的生产力 :) 有好的想法欢迎一起交流。

sunshineg avatar Jan 16 '22 07:01 sunshineg

感谢 @sunshineg 的回复,觉得采用筛选 + 自主填报的方式或许更好。 暂时先筛选出目前 10000 个账号的中国账号,并对其 Github 动态进行监听。 另外开放申报入口,可以采用自主申报和他人推荐方式,加入一部分数据到排行天梯。

也可以定期筛选新排行前 10000 中国用户的账号到排行天梯。

stevending1st avatar Jan 16 '22 08:01 stevending1st

最好还是自主申报,替他人申报之前,最好能够征得他人的同意。

zhuangbiaowei avatar Jan 17 '22 01:01 zhuangbiaowei

最好还是自主申报,替他人申报之前,最好能够征得他人的同意。

感谢 @zhuangbiaowei 。 既然要自主申报,不太清楚目前爬取的数据是否面临和他人申报同样的风险。

stevending1st avatar Jan 17 '22 03:01 stevending1st

感谢 @zhuangbiaowei 。 既然要自主申报,不太清楚目前爬取的数据是否面临和他人申报同样的风险。

目前爬取的数据均为 GitHub 主页公开数据,并不包含任何其他网站的关联数据或挖掘数据,不建议标注他人的非公开数据。例如你知道该账号对应的自然人,但该信息无法通过其对应的账号信息获得,那么此时不应该标注该信息,除非获得对方的同意。

这样是否可以呢?

frank-zsy avatar Jan 17 '22 08:01 frank-zsy

其实,最合理的办法,是一个人用自己的Github账号,OAuth登录,然后只能修改他自己的账号的相关信息。

zhuangbiaowei avatar Jan 17 '22 09:01 zhuangbiaowei

其实,最合理的办法,是一个人用自己的Github账号,OAuth登录,然后只能修改他自己的账号的相关信息。

是不是这样就可以了:

  1. 天梯谁都可以加(来源有两个,一个是前 10000 的账号筛选、另一个是自己或者他人填报),因为@frank-zsy 解释了,这个数据来自于公开数据,不会有潜在的法律风险。
  2. 身份认领和天梯分离,如果需要认领身份,必须通过 Github 账号登录才能修改信息。
  3. 没有自主标注的账号只能显示 Github 公开信息。

stevending1st avatar Jan 17 '22 22:01 stevending1st

我感觉最简单的方法,也许可以通过中国手机号进行认证:有手机号的,自己认证了,就算。

因为这个能基本上约等于在中国工作/生活吧。

huan avatar Mar 04 '22 09:03 huan

我感觉最简单的方法,也许可以通过中国手机号进行认证:有手机号的,自己认证了,就算。

因为这个能基本上约等于在中国工作/生活吧。

有部分海外华人

stevending1st avatar Mar 05 '22 06:03 stevending1st