DOPMC
DOPMC copied to clipboard
hugging-audio
你是否已经阅读并同意《Datawhale开源项目指南》?
- [X] 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- [X] 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
Hugging Face Audio Course的中文版。这门课程是关于如何使用Transformers进行音频处理。Transformers是一种功能强大且多用途的深度学习架构,已在多个任务中取得了最先进的成果,包括自然语言处理、计算机视觉,以及最近的音频处理。
课程结构分为几个单元,涵盖不同的主题:
学习处理音频数据的具体方法,包括音频处理技术和数据准备。
了解音频应用,学习如何使用Transformers处理不同任务,如音频分类和语音识别。 探索音频Transformers架构,了解它们的不同之处及适用任务。 学习构建自己的音乐流派分类器。 深入语音识别,构建转录会议记录的模型。 学习如何从文本生成语音。 学习如何用Transformers构建真实世界的音频应用程序。 每个单元都包括理论部分,帮助你深入理解底层概念和技术。课程中还提供测验来测试你的知识并加强学习。有些章节还包括实践练习,让你有机会应用所学的知识。
这个课程适合有深度学习背景并且对Transformers有基本了解的学习者。不要求音频数据处理的专业知识。
立项理由
AI语音技术已成为当今技术领域的热点,其流行程度和应用范围正在迅速扩大。这种技术不仅在智能助手、客户服务和家庭自动化系统中得到广泛应用,还在医疗、教育、娱乐等行业中扮演着重要角色。随着技术的进步,AI语音技术变得越来越智能,能够理解、生成和转换语音,以及执行复杂的语言处理任务。此外,随着人们对便捷和无接触交互方式需求的增加,AI语音技术的流行程度预计将持续增长。
目前国内部分视频平台确实有诸如”5分钟拥有你自己的AI语音助手“这样的应用开发教程,但过于碎片化,也缺少前置知识的铺垫。国外有一些比较优质的网课CS224S,但现在已经不再开设。而Hugging Face的这一教程非常适合有深度学习基础但对语音不甚了解的学习者。
项目受众
- 有深度学习背景的学习者
- 对Transformer有基本了解的学习者
- 对音频数据处理感兴趣的学习者
项目亮点
这门语音课程的亮点包括:
-
Transformer技术的深入探索:课程专注于Transformer在音频处理中的应用,包括语音识别、音频分类和文本到语音等任务。
-
实用案例学习:涵盖了构建音乐流派分类器、转录会议记录的模型等实际应用,提供了学习理论与实践相结合的机会。
-
面向多层次学习者:课程旨在适合具有深度学习背景的学习者,无需音频数据处理的专业知识。
-
全面的课程结构:从音频数据的基础处理到构建复杂的音频应用,课程结构全面,覆盖音频Transformer领域的多个关键方面。
项目规划
目录
- 欢迎来到课程
- [x] 对课程的期待
- 使用语音数据
- [x] 你将学到什么
- [x] 语音数据介绍
- [x] 加载和探索语音数据集
- [x] 预处理语音数据
- [x] 流式化语音数据
- [x] 小测
- [x] 补充阅读和材料
- 语音应用入门
- [x] 语音应用概览
- [x] 音频分类流水线
- [x] 自动语音识别流水线
- [x] 音频生成流水线
- [x] 动手实践
- 语音Transformer架构
- [x] Transformer回顾
- [x] CTC架构
- [x] Seq2Seq架构
- [x] 语音分类架构
- [x] 小测
- [x] 补充阅读和材料
- 构建音乐流派分类器
- [x] 你将学到和构建什么
- [x] 音频分类预训练模型
- [x] 微调音乐分类模型
- [x] 使用Gradio构建demo
- [x] 动手实践
- 自动语音识别
- [x] 你将学到和构建什么
- [x] 语音识别预训练模型
- [x] 选择数据集
- [x] 语音识别评估和指标
- [x] 使用Trainer API微调自动语音识别系统
- [x] 构建demo
- [x] 动手实践
- [x] 补充阅读和材料
- 文本-语音
- [x] 你将学到和构建什么
- [x] 文本-语音数据集
- [x] 文本-语音预训练模型
- [x] 微调SpeechT5
- [x] 评估文本-语音模型
- [x] 动手实践
- [x] 补充阅读和材料
- 组合语音与文本
- [x] 你将学到和构建什么
- [x] 语音-语音翻译
- [x] 创建语音助手
- [x] 会议转录
- [ ] 动手实践
- [ ] 补充阅读和材料
- 结语
- [ ] 恭喜
时间安排
在1月底完成初版翻译和在线文档部署
后续考虑
在翻译工作完成之后,考虑添加Whisper等语音大模型的使用,进一步完善教程。
项目负责人
@YikunHan42 韩颐堃 微信:Sherry___42
样章
项目地址
备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~
- [X] 我已知悉上述备注
7天内无反对意见则默认立项通过