open-research icon indicating copy to clipboard operation
open-research copied to clipboard

📚 用开源的方法来研究开源的现象。(open source methodology for open source phenomena)

Results 142 open-research issues
Sort by recently updated
recently updated
newest added

## 背景 基于网络的中心性算法在中心性评估中有较好的表现,而自 PageRank 提出以来,基于网络拓扑关系的协同中心性排序备受关注,并演化出众多的相关算法。如面向特定领域的 ArticleRank、MovieRank,针对性能优化的 LeaderRank,以及在 2018 年提出的扩展到二部图的BiRank 等,都是对 PageRank 算法的扩展。 但在实际业务场景中,简单的同质图或二部图并不能很好的反映真实世界的网络关系,真实的网络更多是异质信息网络。因此将 PageRank 类算法扩展到泛化异质信息网络,并使其可以支持先验知识,则可以更好的适应真实业务需求,为真实世界的价值评估提供更好的数据与理论支撑。 ## 思路 ### 摘要 介绍开源软件的统计评价方法及其局限性,并介绍基于图网络的中心性算法。 ### 问题 更详细介绍开源软件研发领域的软件中心性评估的问题与意义,介绍开源软件研发领域的数据情况。 ### 方法 - 异质图建模,生产(GitHub 活跃)、消费(生态项目依赖)、社交(GitHub 用户关注关系)网络,并对数据进行时序化处理。 -...

### Description 简单来说,就是将我们前面探索的问题与技术空间做个整理: - GitHub 上的图数据分析(技术方法) - 开源人才/专家的识别、测量与评估(问题领域) 针对开源人才的分层分类识别,利用大规模图数据作为方法,进而探索: - 分层:新手、熟悉、胜任、专家(例如,转换为节点分类问题) - 分类:技术领域类别(能力图谱 + 多标签分类) - 综合:成长与胜任力模型(多维度视角) 基础问题1:**需要建什么样子的图?** - Follow network:社交网络上 KOL - 协作关系网:核心贡献者 - @网络:知识流动协调者? - 依赖网络:供应链上的人才发现 基础问题2:成果回收 -...

### Description **问题描述:** - 水杉在线是目前华东师范大学自主研发的一个基于云原生的在线学习平台,其中集成了众多的开源软件,随着时间的发展,由开源软件的许可证、漏洞、版本更新、人员维护等带来的风险问题越来越多,如何建立一个全面、科学合理的风险评估模型至关重要。 **相关工作:** - 实验室通过两年多的建设,已经初步搭建了一套数据基础设施,用来采集、存储、分析 GitHub上面的全域日志数据:https://github.com/X-lab2017/open-digger - 类似 https://libraries.io/ 这样的平台,提供了不同语言下项目之间的依赖信息,为风险模型的建立提供了有用信息; - Linux Foundation 旗下的 [OpenChain ](https://www.openchainproject.org/)项目,提供了包括许可证兼容与合规方面的标准与工具; - Linux Foundation 和 Google 也联合发起了类似 [Slsa ](https://slsa.dev/)的开源项目,为软件供应链的安全问题提供支持。 **研究内容:** - 整理水杉在线目前使用到的所有开源项目组件,并形成类似...

基于我们 29 日讨论的结果([记录文档](https://xlab2017.yuque.com/msdpvs/me6vqg/fw4dyn)),初定本周完成如下几个工作: - [x] 游兰教授的开源研究团队成员,以外部协作者的身份,导入到 X-lab 的“语雀”空间 @bifenglin - [x] 在“语雀”中进行团队设置、权限设置等操作,使其能方便地进行协作 @tyn1998 - [x] 在 GitHub 中 X-lab 组织下面,加入 [Prof-You 团队](https://github.com/orgs/X-lab2017/teams/prof-you/members),并加入相关人员 @bifenglin - [ ] 文章翻译工作的支持,基于 GitHub 的翻译流程设计 #72...

### Description 我们是不是也可以把与开源相关的行业报告、行业研究整理一份清单,用到的时候找起来会比较方便

> 本项目的视角是GitHub用户的兴趣特征,包括用户、开发者等不同的人群。从对项目的兴趣视角切入,通过分析反映开发者社交行为的数据(特别是Follow人、Star项目信息)来构建开发者社交网络(Developer social networks,DSN),结合开发者画像,进而开展开发者相似性度量的研究工作。 在此浅更一下毕业设计的开题进度~ 欢迎讨论💕

### Title Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs ### Link https://arxiv.org/abs/1603.09320 ### Year 2018 ### Author and affiliation Yu. A. Malkov, D. A....

### Description 根据 Frank 在他的文章中提到的这一步 https://github.com/frank-zsy/blog/blob/9f43cfcf1064ef873002a3a879afb82ce0f29abf/source/_posts/how_to_measure_open_source_1.md?plain=1#L27 我觉得 star 的作用被太过低估了。 当然这也是可以理解的,其主要原因在于: 1. 确实有太多没有那么大价值的 repository (如 Papers collections,leetcode 题解库等)被刷了过多的 stars; 2. stars 的数据采集吃力不讨好,根据 [open-digger 中的 issue 的一个回答](https://github.com/X-lab2017/open-digger/issues/914#issuecomment-1188525198) 可知: Github API 针对实时 stars...

学术论文: Idea

### Title A BenchCouncil View on Benchmarking Emerging and Future Computing. ### Link https://www.sciencedirect.com/science/article/pii/S2772485922000515 ### Year 2022 ### Author and affiliation Jianfeng Zhan - Research Center for Advanced Computer Systems,...

* 开题题目:开源社区成员协作网络的结构和角色分析(待优化) * 研究对象:开源社区,成员角色划分 * 研究视角:开源社区治理与角色管理视角 * 研究问题:是否能够基于GitHub上成员协作历史行为,对于协作网络进行结构分析并建立角色体系 * 研究方法:采集开源协作数据并进行数据清洗;探究自发参与到社区项目的开发者协作而形成的网络结构特征,并进行网络成员角色分析和分类,构建角色体系。 * 研究结果:提出基于开源治理与运营场景的社区管理模型;提供帮助组织了解、管理和发展其社区的可视化服务。 * 实验设计:挑选三个社区作为分析对象,采集对应项目及其成员的一年的协作数据;分别构建基于 issue/PR 的开发者协作网络;根据网络结构特征设计开源社区角色体系;改进现有算法进行网络结构层级划分以及角色识别,基于角色和模块使用网络图等形式进行可视化展示。 参考: Orbit模型:https://github.com/orbit-love/orbit-model