open-research icon indicating copy to clipboard operation
open-research copied to clipboard

[11-18] 组会内容介绍:基于协作信息抽取工具GH_CoRE(GitHub_Collaboration_Relation_Extraction)的异质图构建与相关下游任务讨论

Open birdflyi opened this issue 11 months ago • 2 comments

Description

GH_CoRE简介

GH_CoRE(GitHub_Collaboration_Relation_Extraction)是一个基于GitHub日志数据抽出协作信息的工具,其中协作信息包含EventActionReference两种类型。

Feature

  • 更丰富的节点类型和边类型
    • 15种有效节点类型
    • 2种边大类,其中EventAction关联按event trigger细分,Reference关联暂未划分子类型
  • 针对Issue、PullRequest、SHA、Repo、Actor等节点在文本中的缩写识别
  • 针对PullRequest的不唯一issue_id的同一节点合并
  • 对不同项目中的实体id扩展,以确保在全域中的id唯一性
  • 针对GitHub默认项目托管服务意外的类型细分,便于研究从内部引用到外部引用的细分范围
  • 包含实体搜索(Entity Search)服务,即从GitHub事件日志查询实体属性以及GitHub事件日志记录的功能
    • 包含连接clickhouse数据库(详见OpenDigger数据,也可建立自己的数据库,见AuthConf,或建立空表以只使用GitHub API查询服务)的数据,以减少访问GitHub API的次数,降低GitHub token受限制导致查询失败的风险
    • 包含Cache功能,对于查询过的记录保存默认200个键值对,可以减少实体搜索任务量,降低查询失败风险,加速处理;
  • 存储结构(reference relation csv headline design)
    • 包含14个特征列:columns = ["src_entity_id", "src_entity_type", "tar_entity_id", "tar_entity_type", "relation_label_id", "relation_type", "relation_label_repr", "event_id", "event_trigger", "event_type", "event_time"], columns_extend_field = ["tar_entity_match_text", "tar_entity_match_pattern_type", "tar_entity_objnt_prop_dict"]
    • columns_extend_field仅当relation_type为Reference时才会有值,这是因为Reference是从评论等事件的文本中识别命名实体,再经过实体搜索,将返回的实体type和实体id作为target节点的"tar_entity_id", "tar_entity_type"的。
  • 可构建网络Type(值域参考Stanford Large Network Dataset Collection)
    • Event Netwok, Reference Network, and any other derived networks, Type: [Directed, ~~Unsigned~~, Temporal, Attributed, ~~Non-enbeddings~~]
    • 可以通过过滤PullRequestEvent的pr_merged的状态,或者根据IssueReactionEvent及含有文本事件的body的情感倾向,将网络类型由Unsigned转为Signed;可以通过反查含文本实体的文本内容,为网络节点附加向量表征,为网络类型增加额外的Embeddings以增强相应的下游任务(如情感倾向预测、链接预测)的评分.
  • 任务相近的项目

相关Issue

  • #305

birdflyi avatar Nov 18 '24 16:11 birdflyi