open-research
open-research copied to clipboard
[11-18] 组会内容介绍:基于协作信息抽取工具GH_CoRE(GitHub_Collaboration_Relation_Extraction)的异质图构建与相关下游任务讨论
Description
GH_CoRE简介
GH_CoRE(GitHub_Collaboration_Relation_Extraction)是一个基于GitHub日志数据抽出协作信息的工具,其中协作信息包含EventAction和Reference两种类型。
Feature
- 更丰富的节点类型和边类型
- 15种有效节点类型
- 2种边大类,其中
EventAction关联按event trigger细分,Reference关联暂未划分子类型
- 针对Issue、PullRequest、SHA、Repo、Actor等节点在文本中的缩写识别
- 针对PullRequest的不唯一issue_id的同一节点合并
- 对不同项目中的实体id扩展,以确保在全域中的id唯一性
- 针对GitHub默认项目托管服务意外的类型细分,便于研究从内部引用到外部引用的细分范围
- 包含实体搜索(Entity Search)服务,即从GitHub事件日志查询实体属性以及GitHub事件日志记录的功能
- 包含连接clickhouse数据库(详见OpenDigger数据,也可建立自己的数据库,见AuthConf,或建立空表以只使用GitHub API查询服务)的数据,以减少访问GitHub API的次数,降低GitHub token受限制导致查询失败的风险
- 包含Cache功能,对于查询过的记录保存默认200个键值对,可以减少实体搜索任务量,降低查询失败风险,加速处理;
- 存储结构(reference relation csv headline design)
- 包含14个特征列:
columns = ["src_entity_id", "src_entity_type", "tar_entity_id", "tar_entity_type", "relation_label_id", "relation_type", "relation_label_repr", "event_id", "event_trigger", "event_type", "event_time"],columns_extend_field = ["tar_entity_match_text", "tar_entity_match_pattern_type", "tar_entity_objnt_prop_dict"] - columns_extend_field仅当relation_type为Reference时才会有值,这是因为Reference是从评论等事件的文本中识别命名实体,再经过实体搜索,将返回的实体type和实体id作为target节点的
"tar_entity_id", "tar_entity_type"的。
- 包含14个特征列:
- 可构建网络Type(值域参考Stanford Large Network Dataset Collection)
- Event Netwok, Reference Network, and any other derived networks, Type: [Directed, ~~Unsigned~~, Temporal, Attributed, ~~Non-enbeddings~~]
- 可以通过过滤PullRequestEvent的pr_merged的状态,或者根据IssueReactionEvent及含有文本事件的body的情感倾向,将网络类型由Unsigned转为Signed;可以通过反查含文本实体的文本内容,为网络节点附加向量表征,为网络类型增加额外的Embeddings以增强相应的下游任务(如情感倾向预测、链接预测)的评分.
- 任务相近的项目
- empiricalstateofmind/eventgraphs,Type: [Directed, Temporal]
- soc-RedditHyperlinks(Social Network: Reddit Hyperlink Network), Type: [Directed, Signed, Temporal, Attributed], Description: Hyperlinks between subreddits on Reddit.
相关Issue
- #305