open-research issues

[Presentation&Idea] 面向开源治理的AI供应链设计

### Description # 面向开源治理的AI供应链设计（Open AI Supply Chain，OpenASC） ## 1. 背景 ### 1.1 供应链概述 ### 1.2 软件供应链与LLM供应链 ## 2. 目前有关LLM供应链的设计方法（大家怎么做的？） [Large Language Model Supply Chain A Research Agenda.pdf](https://github.com/user-attachments/files/19525648/Large.Language.Model.Supply.Chain.A.Research.Agenda.pdf) [Lifting the Veil...

zhingoll

[图数据可视化] 关于 ML Supply Chain 上的图数据可视化工作（Hugging Face 数据集）

2

### Description 受启发于“[The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face](https://arxiv.org/abs/2502.04484)”这篇工作，配套了一个在基于 Hugging Face API 的[数据集](https://github.com/TStalnaker44/hugging_face_analysis_replication)，包含 760,460 个模型和 175,000 数据集。可以利用一些数据分析的工具（特别是图可视化工具）进一步开展一些探索和挖掘下的工作。 @YaoYao-Pig

will-ww

[Research] 关于实现 OpenDigger 自动化多层标签分类的研究进展跟踪

17

该工作首先是支撑OpenDigger项目本身，GitHub每年都会有大量热门仓库的创建，然而每次OpenDigger中的仓库标签大多数均由人工给出，耗时耗力其次是为了支持蚂蚁开源办公室夏博士的[工作](https://xiaoya-yaya.github.io/ant-ospo-insights/analysis/Data4AI-Analysis) 多层次标签分类在自然语言处理中算是比较难的一个分类任务，英文为Hierarchical Text Classification或者 Hierarchical-Multilabel-Text-Classification，分类结构参考如下： ![Image](https://github.com/user-attachments/assets/8cde493c-3764-4d97-be1a-164de8f6081b) 我们自己的标签体系也是一个树状的结构，例如，root下面有AI database fronted 等等，database下面又有key-value, time-series等等，我们现在希望当输入一个仓库的一些描述信息时，可以直接自动分类。那么现在的问题就是我们需要自己有一套标签体系，然后再通过使用合理的方法对其进行分类。

PureNatural

[11-18] 组会内容介绍：基于协作信息抽取工具GH_CoRE(GitHub_Collaboration_Relation_Extraction)的异质图构建与相关下游任务讨论

2

### Description ## GH_CoRE简介 GH_CoRE([GitHub_Collaboration_Relation_Extraction](https://github.com/birdflyi/GitHub_Collaboration_Relation_Extraction))是一个基于GitHub日志数据抽出协作信息的工具，其中协作信息包含`EventAction`和`Reference`两种类型。 ### Feature - 更丰富的节点类型和边类型 - 15种有效节点类型 - 2种边大类，其中`EventAction`关联按event trigger细分，`Reference`关联暂未划分子类型 - 针对Issue、PullRequest、SHA、Repo、Actor等节点在文本中的缩写识别 - 针对PullRequest的不唯一issue_id的同一节点合并 - 对不同项目中的实体id扩展，以确保在全域中的id唯一性 - 针对GitHub默认项目托管服务意外的类型细分，便于研究从内部引用到外部引用的细分范围 - 包含实体搜索(Entity Search)服务，即从GitHub事件日志查询实体属性以及GitHub事件日志记录的功能 - 包含连接clickhouse数据库（详见[OpenDigger数据](https://shimo.im/docs/XKq425p0rQUVrpAN#anchor-o4ej)，也可建立自己的数据库，见[AuthConf](https://github.com/birdflyi/GitHub_Collaboration_Relation_Extraction?tab=readme-ov-file#quick-start)，或建立空表以只使用GitHub API查询服务）的数据，以减少访问GitHub API的次数，降低GitHub token受限制导致查询失败的风险...

birdflyi

[Invited Talk] AI 时代的模型许可证及其合规性分析工具

1

### Description 本次组会（3月10日）我们荣幸邀请到来自新加坡国立大学的[段莫名](https://openreview.net/profile?id=~Moming_Duan1)博士分享其团队关于模型许可证的系列工作，参考如下： - https://github.com/Xtra-Computing/ModelGo - https://dl.acm.org/doi/10.1145/3589334.3645520 - https://arxiv.org/abs/2412.11483

will-ww

[Presentation] UniLog: Automatic Logging via LLM and In-Context Learning

2

### Title 汇报人：王衍童分享一个大模型在软件工程中的任务场景及实现方案 ### Link https://dl.acm.org/doi/abs/10.1145/3597503.3623326 ### Year 2024 ### Author and affiliation Junjielong Xu, Ziang Cui, Yuan Zhao, Xu Zhang, Shilin He, Pinjia He, Liqun Li, Yu Kang,...

wangyantong2000

[2024 本科毕设] 面向播客内容的LLM智能处理系统

4

### Description 随着播客行业的蓬勃发展，如何从海量的播客音频中高效地获取信息成面临的新挑战。本课题旨在利用大型语言模型（LLM）的强大能力，结合RAG、Agent等技术，构建一个面向播客内容的智能问答与创作系统，使用户能够通过自然语言与系统交互，快速准确地获取播客节目中的信息，同时实现对播客内容的多形式重构和再创作。

zhguichen

[01-06] 以利益相关者需求为驱动的构建开源benchmark方法 - 以Issue分配任务为例

### Description # Description ### 汇报人：张震本次分享包含： 1. 开源研究中 Benchmark 的设计方法 - 以利益相关者需求为驱动 2. 根据该方法实现的一个案例demo - 为仓库中Issue分配合适的解决者 --- ## 以利益相关者需求为驱动的构建开源benchmark方法 ### 1. 背景与挑战 - Benchmark 是连接理论与实践的重要桥梁，常用于评估方法的性能与价值。 - 主要挑战： - **数据历史性**：静态benchmark无法反映当前生态需求[1][2]。...

zhingoll

6、播客节目 + 基于大语言模型和 RAG 的知识库问答系统

16

- 以“[后互联网时代的乱弹](https://space.bilibili.com/760331/channel/collectiondetail?sid=276050)”节目为例，搭建一个基于大模型的知识问答库系统 - 能够回答关于播客节目的各种问题这个方向应该有非常多的事情可以做，并且能够细化分解成不同的任务。简单来说，**播客节目**已经成为数字时代的一种流行的内容生产模式了，特别是一些优秀的播客节目，集趣味性、科学性、话题性等特点于一体。但仅仅通过音频（特别是长音频）的方式进行传播，具有较大的局限性。随着人工智能技术（特别是 AIGC）的发展，如何利用大模型技术，对长音频节目进行二次加工、变换、组合，使其内容更具多样新、传播性等，是一个巨大的机遇与挑战。 `以下内容为是将上面的内容输入到 chatgpt 后，根据相关提示词生产的内容，仅供参考： ` 具体来说，本项目的目标是搭建一个基于大语言模型的知识问答系统，能够针对播客节目中的各种话题、观点、人物、事件等内容，提供精准、智能的回答。该系统可以分为以下几个主要任务： - 音频内容的转录与文本化处理：通过语音识别技术（ASR）将播客节目的音频内容转换成文本数据。这一阶段需要确保转录的高准确度，特别是对于涉及多重方言或行业术语的播客内容，可能需要专门的模型或定制化的语料库进行训练。 - 播客内容的语义理解与知识提取：利用大语言模型（如 GPT、BERT 等）对转录后的文本进行深度语义理解与分析。这一过程不仅仅是提取文本中的关键词，还需要识别出节目中的核心观点、背景信息、人物关系等知识要素。例如，某一集播客可能涉及多个话题，系统需能够识别并将其归类为不同的知识片段。 - 构建智能问答库：基于提取的关键信息，构建一个针对播客节目的知识库，并结合自然语言处理技术，建立问答机制。用户可以向系统提出与节目相关的问题，系统会自动匹配并生成回答。这个过程需要对问题进行自然语言理解（NLU）并将其映射到相关的知识点，然后生成流畅且准确的答案。 - 内容推荐与个性化服务：结合用户的兴趣和历史行为，基于知识库的分析结果，系统可以进行个性化的内容推荐。通过机器学习模型，预测用户可能感兴趣的播客集数、主题、嘉宾等信息，增强用户体验和互动性。 - 多模态内容增强：针对音频内容，可以通过生成式 AI（如大模型生成的摘要、图文结合展示、自动生成的时间轴等）增强内容的多样性和传播性。例如，系统可以自动生成播客节目的精简版文本摘要或关键点提炼，供用户快速浏览，提升信息的可访问性和易用性。 - 系统的智能反馈与学习机制：在系统使用过程中，用户的反馈信息（如点赞、评论、纠正回答）将成为系统不断优化的依据。通过强化学习等方法，系统将逐步提高对播客内容的理解准确性和问答质量，最终实现精准、高效、个性化的服务。通过以上任务的逐步实现，本项目不仅能够帮助用户高效获取播客节目中的关键信息，还能拓宽传统音频内容的传播路径，使得长音频能够在不同场景下更加灵活地应用。最终，基于大模型的知识问答库系统将成为一个智能化、高效、互动性强的播客内容辅助工具，为播客节目制作者、听众和研究人员提供全新的价值体验。应用场景与潜在影响： -...

will-ww

[Presentation] 从与价值观相关讨论中预测开源贡献者流失：GitHub Issue 的分析

### Title Predicting open source contributor turnover from value-related discussions: An analysis of GitHub issues ### Link [Predicting open source contributor turnover from value-related discussions- An analysis of GitHub issues.pdf](https://github.com/user-attachments/files/18272571/Predicting.open.source.contributor.turnover.from.value-related.discussions-.An.analysis.of.GitHub.issues.pdf)...

Peng99999

open-research
open-research copied to clipboard

Metadata

[Presentation&Idea] 面向开源治理的AI供应链设计

[图数据可视化] 关于 ML Supply Chain 上的图数据可视化工作（Hugging Face 数据集）

[Research] 关于实现 OpenDigger 自动化多层标签分类的研究进展跟踪

[11-18] 组会内容介绍：基于协作信息抽取工具GH_CoRE(GitHub_Collaboration_Relation_Extraction)的异质图构建与相关下游任务讨论

[Invited Talk] AI 时代的模型许可证及其合规性分析工具

[Presentation] UniLog: Automatic Logging via LLM and In-Context Learning

[2024 本科毕设] 面向播客内容的LLM智能处理系统

[01-06] 以利益相关者需求为驱动的构建开源benchmark方法 - 以Issue分配任务为例

6、播客节目 + 基于大语言模型和 RAG 的知识库问答系统

[Presentation] 从与价值观相关讨论中预测开源贡献者流失：GitHub Issue 的分析

← Metadata

Owner

Metadata

open-research open-research copied to clipboard

Metadata

← Metadata

Owner

Metadata

open-research
open-research copied to clipboard