open-research icon indicating copy to clipboard operation
open-research copied to clipboard

📚 用开源的方法来研究开源的现象。(open source methodology for open source phenomena)

Results 142 open-research issues
Sort by recently updated
recently updated
newest added

### Description # 面向开源治理的AI供应链设计(Open AI Supply Chain,OpenASC) ## 1. 背景 ### 1.1 供应链概述 ### 1.2 软件供应链与LLM供应链 ## 2. 目前有关LLM供应链的设计方法(大家怎么做的?) [Large Language Model Supply Chain A Research Agenda.pdf](https://github.com/user-attachments/files/19525648/Large.Language.Model.Supply.Chain.A.Research.Agenda.pdf) [Lifting the Veil...

### Description 受启发于“[The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face](https://arxiv.org/abs/2502.04484)”这篇工作,配套了一个在基于 Hugging Face API 的[数据集](https://github.com/TStalnaker44/hugging_face_analysis_replication),包含 760,460 个模型和 175,000 数据集。 可以利用一些数据分析的工具(特别是图可视化工具)进一步开展一些探索和挖掘下的工作。 @YaoYao-Pig

该工作首先是支撑OpenDigger项目本身,GitHub每年都会有大量热门仓库的创建,然而每次OpenDigger中的仓库标签大多数均由人工给出,耗时耗力 其次是为了支持蚂蚁开源办公室夏博士的[工作](https://xiaoya-yaya.github.io/ant-ospo-insights/analysis/Data4AI-Analysis) 多层次标签分类在自然语言处理中算是比较难的一个分类任务,英文为Hierarchical Text Classification或者 Hierarchical-Multilabel-Text-Classification,分类结构参考如下: ![Image](https://github.com/user-attachments/assets/8cde493c-3764-4d97-be1a-164de8f6081b) 我们自己的标签体系也是一个树状的结构,例如,root下面有AI database fronted 等等,database下面又有key-value, time-series等等,我们现在希望当输入一个仓库的一些描述信息时,可以直接自动分类。 那么现在的问题就是我们需要自己有一套标签体系,然后再通过使用合理的方法对其进行分类。

### Description ## GH_CoRE简介 GH_CoRE([GitHub_Collaboration_Relation_Extraction](https://github.com/birdflyi/GitHub_Collaboration_Relation_Extraction))是一个基于GitHub日志数据抽出协作信息的工具,其中协作信息包含`EventAction`和`Reference`两种类型。 ### Feature - 更丰富的节点类型和边类型 - 15种有效节点类型 - 2种边大类,其中`EventAction`关联按event trigger细分,`Reference`关联暂未划分子类型 - 针对Issue、PullRequest、SHA、Repo、Actor等节点在文本中的缩写识别 - 针对PullRequest的不唯一issue_id的同一节点合并 - 对不同项目中的实体id扩展,以确保在全域中的id唯一性 - 针对GitHub默认项目托管服务意外的类型细分,便于研究从内部引用到外部引用的细分范围 - 包含实体搜索(Entity Search)服务,即从GitHub事件日志查询实体属性以及GitHub事件日志记录的功能 - 包含连接clickhouse数据库(详见[OpenDigger数据](https://shimo.im/docs/XKq425p0rQUVrpAN#anchor-o4ej),也可建立自己的数据库,见[AuthConf](https://github.com/birdflyi/GitHub_Collaboration_Relation_Extraction?tab=readme-ov-file#quick-start),或建立空表以只使用GitHub API查询服务)的数据,以减少访问GitHub API的次数,降低GitHub token受限制导致查询失败的风险...

### Description 本次组会(3月10日)我们荣幸邀请到来自新加坡国立大学的[段莫名](https://openreview.net/profile?id=~Moming_Duan1)博士分享其团队关于模型许可证的系列工作,参考如下: - https://github.com/Xtra-Computing/ModelGo - https://dl.acm.org/doi/10.1145/3589334.3645520 - https://arxiv.org/abs/2412.11483

### Title 汇报人:王衍童 分享一个大模型在软件工程中的任务场景及实现方案 ### Link https://dl.acm.org/doi/abs/10.1145/3597503.3623326 ### Year 2024 ### Author and affiliation Junjielong Xu, Ziang Cui, Yuan Zhao, Xu Zhang, Shilin He, Pinjia He, Liqun Li, Yu Kang,...

### Description 随着播客行业的蓬勃发展,如何从海量的播客音频中高效地获取信息成面临的新挑战。本课题旨在利用大型语言模型(LLM)的强大能力,结合RAG、Agent等技术,构建一个面向播客内容的智能问答与创作系统,使用户能够通过自然语言与系统交互,快速准确地获取播客节目中的信息,同时实现对播客内容的多形式重构和再创作。

### Description # Description ### 汇报人:张震 本次分享包含: 1. 开源研究中 Benchmark 的设计方法 - 以利益相关者需求为驱动 2. 根据该方法实现的一个案例demo - 为仓库中Issue分配合适的解决者 --- ## 以利益相关者需求为驱动的构建开源benchmark方法 ### 1. 背景与挑战 - Benchmark 是连接理论与实践的重要桥梁,常用于评估方法的性能与价值。 - 主要挑战: - **数据历史性**:静态benchmark无法反映当前生态需求[1][2]。...

- 以“[后互联网时代的乱弹](https://space.bilibili.com/760331/channel/collectiondetail?sid=276050)”节目为例,搭建一个基于大模型的知识问答库系统 - 能够回答关于播客节目的各种问题 这个方向应该有非常多的事情可以做,并且能够细化分解成不同的任务。简单来说,**播客节目**已经成为数字时代的一种流行的内容生产模式了,特别是一些优秀的播客节目,集趣味性、科学性、话题性等特点于一体。但仅仅通过音频(特别是长音频)的方式进行传播,具有较大的局限性。 随着人工智能技术(特别是 AIGC)的发展,如何利用大模型技术,对长音频节目进行二次加工、变换、组合,使其内容更具多样新、传播性等,是一个巨大的机遇与挑战。 `以下内容为是将上面的内容输入到 chatgpt 后,根据相关提示词生产的内容,仅供参考: ` 具体来说,本项目的目标是搭建一个基于大语言模型的知识问答系统,能够针对播客节目中的各种话题、观点、人物、事件等内容,提供精准、智能的回答。该系统可以分为以下几个主要任务: - 音频内容的转录与文本化处理:通过语音识别技术(ASR)将播客节目的音频内容转换成文本数据。这一阶段需要确保转录的高准确度,特别是对于涉及多重方言或行业术语的播客内容,可能需要专门的模型或定制化的语料库进行训练。 - 播客内容的语义理解与知识提取:利用大语言模型(如 GPT、BERT 等)对转录后的文本进行深度语义理解与分析。这一过程不仅仅是提取文本中的关键词,还需要识别出节目中的核心观点、背景信息、人物关系等知识要素。例如,某一集播客可能涉及多个话题,系统需能够识别并将其归类为不同的知识片段。 - 构建智能问答库:基于提取的关键信息,构建一个针对播客节目的知识库,并结合自然语言处理技术,建立问答机制。用户可以向系统提出与节目相关的问题,系统会自动匹配并生成回答。这个过程需要对问题进行自然语言理解(NLU)并将其映射到相关的知识点,然后生成流畅且准确的答案。 - 内容推荐与个性化服务:结合用户的兴趣和历史行为,基于知识库的分析结果,系统可以进行个性化的内容推荐。通过机器学习模型,预测用户可能感兴趣的播客集数、主题、嘉宾等信息,增强用户体验和互动性。 - 多模态内容增强:针对音频内容,可以通过生成式 AI(如大模型生成的摘要、图文结合展示、自动生成的时间轴等)增强内容的多样性和传播性。例如,系统可以自动生成播客节目的精简版文本摘要或关键点提炼,供用户快速浏览,提升信息的可访问性和易用性。 - 系统的智能反馈与学习机制:在系统使用过程中,用户的反馈信息(如点赞、评论、纠正回答)将成为系统不断优化的依据。通过强化学习等方法,系统将逐步提高对播客内容的理解准确性和问答质量,最终实现精准、高效、个性化的服务。 通过以上任务的逐步实现,本项目不仅能够帮助用户高效获取播客节目中的关键信息,还能拓宽传统音频内容的传播路径,使得长音频能够在不同场景下更加灵活地应用。最终,基于大模型的知识问答库系统将成为一个智能化、高效、互动性强的播客内容辅助工具,为播客节目制作者、听众和研究人员提供全新的价值体验。 应用场景与潜在影响: -...

### Title Predicting open source contributor turnover from value-related discussions: An analysis of GitHub issues ### Link [Predicting open source contributor turnover from value-related discussions- An analysis of GitHub issues.pdf](https://github.com/user-attachments/files/18272571/Predicting.open.source.contributor.turnover.from.value-related.discussions-.An.analysis.of.GitHub.issues.pdf)...