DOPMC
DOPMC copied to clipboard
what-is-vs
你是否已经阅读并同意《Datawhale开源项目指南》?
- [X] 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- [X] 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
本项目旨在创建一个全面、易于理解的向量检索教程,它将覆盖从基础理论到核心技术的各个方面。教程将通过详细的解释、实例和实践案例,帮助初学者、研究人员以及应用人员深入理解并有效地使用向量检索技术。
立项理由
- 市场需求:随着AI的快速发展,向量检索在信息检索、推荐系统、大模型应用等领域变得越来越重要。
- 知识空白:目前市场上缺乏一个全面、系统的向量检索教程。
- 技术进步:大模型和向量检索之间的紧密联系为研究和应用提供了新的可能性。
项目受众
- 初学者,希望从基础了解向量检索。
- 相关领域的研究人员,需要了解最新技术和应用。
- 应用人员,需要实际开发应用向量检索技术。
项目亮点
- 全面性:从基础概念到核心技术,提供全面的内容覆盖。
- 实用性:结合案例研究和应用实例,提供实际操作指南。
- 前瞻性:探讨新兴技术趋势和面临的挑战。
项目规划
以实际大纲为准 第一部分:引言和基础知识 @苏鹏
- 引言
- 什么是向量检索
- 为什么向量检索重要
- 教程目标和读者指南
第二部分:核心技术
- 向量化技术 @李剑楠
- 非结构化数据
- 非结构化数据向量化
- 向量索引
- 向量索引概述 @向隆
- 概述
- 评估技术
- 基于量化的向量索引方法 @李剑楠
- 基于哈希的向量索引方法 @李剑楠
- 基于树的向量索引方法 @王泽宇
- 基于图的向量索引方法 @王泽宇
- 基于混合的向量索引方法 @李剑楠
- 向量查询方法 @王梦召
- 向量查询方法概述
- k近邻查询
- 范围查询
- 混合查询
- 多向量查询
- 其它查询
- 向量查询优化策略 @向隆 @田冰
- 算法层面 @王梦召
- 硬件层面
- CPU 多核架构
- GPU 架构
- FPGA 架构
- 近数据处理架构
第三部分:系统实现与应用 @韩颐堃
- 向量数据库系统概述
- 向量数据库的基本构成与工作原理
- 市面主流向量数据库系统比较
- 基于RAG的知识问答系统实战
- 基于Langchain的RAG基础实现
- 基于Rags的RAG评价体系
第四部分:未来展望和挑战
- 新兴技术趋势
- 神经网络与向量检索的结合(联合优化) @李剑楠
- Learned Index @王泽宇
- DB4LLM @韩颐堃
- 面临的挑战 @王泽宇 @李剑楠 @田冰 @向隆
- 数据隐私和安全问题
- 行业发展趋势和未来应用场景
结语
- 总结
- 附录:进一步阅读资源和工具列表
项目负责人
Github:@SuperSupeng WeChat: subranium
项目链接
备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~
- [X] 我已知悉上述备注
同意,期待看到成品。 BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。
同意,期待看到成品。 BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。
会涉及到embedding部分,会重点关注到实践部分,不会过多关注原理方面。
同意
同意