open-research
open-research copied to clipboard
📚 用开源的方法来研究开源的现象。(open source methodology for open source phenomena)
### Description 随着本届同学的顺利毕业,积累的部分成果可以考虑整理成小论文,进行集中性投稿了,推荐如下会议,请大家积极整理。 **1、NDBC 2024** - 会议网站:[链接](https://conf.ccf.org.cn/web/api/m1218982079254106112171066957528.action) - 论文提交截止时间:2024 年 05 月 22 日 - 系统演示提交截止时间:2024 年 05 月 30 日 - 会议时间:2024 年 8 月 7 日 - 8...
### Title Graph Neural Networks for Friend Ranking in Large-scale Social Platforms ### Link https://nshah.net/publications/GrafRank.WWW.21.pdf ### Year 2021 ### Author and affiliation Aravind Sankar, University of Illinois at Urbana-Champaign, [email protected]...
### Description ## 1.实验结果 根据之前[影响力最大化](https://github.com/X-lab2017/open-research/issues/231)的思路,目前实现了一个比较粗粒度的实验,分别用独立级联模型(IC)、线性阈值模型(TL)和传染病模型(SIR)在我本地的一个协作网络图上对比了openrank与PageRank的结果图,发现OpenRank可以比PageRank多影响2000-5000个节点,初步验证了OpenRank的有效性。 1.数据:构建的数据是一个二部图,两种类型的节点:开发者(共43315个)和仓库(50000个);5中类型的边:pr, issue, push, release 和folk。开发者和仓库节点都是影响力相对较高的节点。 2.初始激活节点的设置:发现激活种子节点比较大的时候,对比的传播规模的结果是更好的。开发者节点和仓库节点都选取前1万个节点时,最后的传播规模两则相差不大;当种子节点在2万-3万时,OpenRank明显要比PageRank要好。如图 独立级联模型:  线性阈值模型:(阈值选取节点的度,节点权重设置为OpenRnak 数值)  传染病SIR模型:  ## 2.后续的研究计划 后续的实验应该要细粒度一些,目前想到的是从数据和模型两方面着手。 ### 2.1. 数据: ①目前构建的是协作网络的子图,数据规模应该算中等,后续可以建立相同类型比较小规模和更大规模的子图上进行实验。 ②协作关系只考虑了GitHub工作流的交互结构属性,只属于开发者和仓库的边,还想到仓库与仓库的关系(还没想好是什么关系),开发者与开发者的follow关系,(社交属性)但这个数据通过REST API请求。但是API请求总是遇到网络连接问题,验证了身份但还是请求的频率有限制,还不太清楚什么原因。 目前大多数研究是在开发者同质网络上找到有影响力的开发者,但如果考虑异质性就可以找到影响力的开发者的同时找到有影响力的仓库。 ③其他类型的图数据结构。主要是节点和边的选择。我看到有论文把仓库下的文件也作为了一个节点来做建模。 ###...
### Title OSS in Software Engineering Education: Mapping Characteristics of Brazilian Instructors ### Link [OSS in Software Engineering Education: Mapping Characteristics of Brazilian Instructors.pdf](https://github.com/X-lab2017/open-research/files/15286544/OSS_in_Software_Engineering_Education_Mapping_Char.pdf) ### Year 2023 ### Author and...
## 前期工作 - Motivating Open Source Collaborations Through Social Network Evaluation: A Gamification Practice from Alibaba (under review) - OpenDigger:面向开源协作数字生态的数据挖掘与信息服务系统 (under review) ## 论文框架提纲: I. 引言 A. 研究背景和动机 B. 目标和意义...
## Description 2023 年 10/21~22,[CCF中国开源软件大会](https://mp.weixin.qq.com/s/JjhdrqNzJiFAaxEWhomokA)顺利召开,也是第一届线下会议成功举办,学术界与产业界的众多巨斗和大咖齐聚长沙。对于开源软件生态的研究,北京大学周明辉老师带领的 [OSSLab](https://osslab-pku.org/people/) 有非常深厚的学术成果积累,我们之前的组会上也分享了许多他们的文章,OSSLab的研究模式、思路、方法很值得我们参考与借鉴。 这篇帖子意在: - 介绍学术同行 OSSLab 的研究方向和成果,供同学们了解学习,在后续持续交流的基础上展开合作; - 同时接棒王老师在暑期前的 [Call For Paper](https://github.com/X-lab2017/open-research/issues/220),介绍下半年 ICSE 系列会议值得关注和投稿的 Track,大家分工和聚力,争取在明年葡萄牙里斯本和更多软工大佬们进行交流~ 
### Description 近期蚂蚁方发布了 [OSGraph 2.0](http://osgraph.x-lab.info/),除了界面设计上做了不错的更新外,聚焦“**开源图谱**”进行产品设计,给我们能够带来不错的启发。  简单来说,从复杂的开源数字生态数据中,构建出不同的具有现实意义的图,然后在这些不同的图上开展一些分析、挖掘与可视化的工作,能够很好的和咱们实验室的一些工作进行联动,工程、科研、教学等方面可以协同推进。 因此,鼓励大家多多从各种建图的任务出发,一直延伸到应用端,会是一个非常不错的训练过程与体验。例如,除了**协作网络外**(@frank-zsy ),还有**供应链网络**(@bifenglin )、**知识引用网络**(@birdflyi )等。 在例如,近期在 @huangfan0 同学的启发下,可以进一步发掘到包括如下的一些有重要的网络问题: - Vital nodes identi cation,例如 [Vital-nodes.pdf](https://github.com/X-lab2017/open-research/files/15261123/Vital.nodes.identification.in.complex.networks.pdf)、[网络节点影响力分析.pdf](https://github.com/X-lab2017/open-research/files/15261134/default.pdf) - Influence maximization,例如 [IM.pdf](https://github.com/X-lab2017/open-research/files/15261145/A.survey.on.influence.maximization.models.pdf)、[IM on Social Graphs.pdf](https://github.com/X-lab2017/open-research/files/15261150/Influence.Maximization.on.Social.Graphs.A.Survey.pdf) 这些里面的内容,很多都能够类比到具体的开源领域中的应用场景中,无论是科学研究还是工程落地,都能够有用武之地~
### Title Towards Mining OSS Skills from GitHub Activity ### Link https://ieeexplore.ieee.org/document/9793514 ### Year 2022 ### Author and affiliation Jenny T. Liang University of Washington Seattle, Washington, USA Thomas Zimmermann...
### Title Best Practices and Lessons Learned on Synthetic Data for Language Models ### Link [Best Practices and Lessons Learned on Synthetic Data for Language Models.pdf](https://github.com/X-lab2017/open-research/files/15145256/Best.Practices.and.Lessons.Learned.on.Synthetic.Data.for.Language.Models.pdf) ### Year 2024 ###...
### Description Relationship in Github Events - Actor-Actor: Collaboration [Co-occurrence, member, follow] - Material-Material: Dependency [commit(WoC), submodule, package(npm, pip, maven,...)] - Actor-Material: Reference [Distributor/Distributed, Participant, Author] **Introdcution** Github上除了人与人的协作关系,物料与物料的依赖关系之外,还存在人与物料之间的社会技术网络,它对于项目的维护至关重要。Github社会技术网络中的引用关系对于研究软件生态中的knowledge of cross-project...