DOPMC icon indicating copy to clipboard operation
DOPMC copied to clipboard

hugging-audio

Open YikunHan42 opened this issue 1 year ago • 1 comments

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

Hugging Face Audio Course的中文版。这门课程是关于如何使用Transformers进行音频处理。Transformers是一种功能强大且多用途的深度学习架构,已在多个任务中取得了最先进的成果,包括自然语言处理、计算机视觉,以及最近的音频处理​​。

课程结构分为几个单元,涵盖不同的主题:

学习处理音频数据的具体方法,包括音频处理技术和数据准备。

了解音频应用,学习如何使用Transformers处理不同任务,如音频分类和语音识别。 探索音频Transformers架构,了解它们的不同之处及适用任务。 学习构建自己的音乐流派分类器。 深入语音识别,构建转录会议记录的模型。 学习如何从文本生成语音。 学习如何用Transformers构建真实世界的音频应用程序。 每个单元都包括理论部分,帮助你深入理解底层概念和技术。课程中还提供测验来测试你的知识并加强学习。有些章节还包括实践练习,让你有机会应用所学的知识​​。

这个课程适合有深度学习背景并且对Transformers有基本了解的学习者。不要求音频数据处理的专业知识​​。

立项理由

AI语音技术已成为当今技术领域的热点,其流行程度和应用范围正在迅速扩大。这种技术不仅在智能助手、客户服务和家庭自动化系统中得到广泛应用,还在医疗、教育、娱乐等行业中扮演着重要角色。随着技术的进步,AI语音技术变得越来越智能,能够理解、生成和转换语音,以及执行复杂的语言处理任务。此外,随着人们对便捷和无接触交互方式需求的增加,AI语音技术的流行程度预计将持续增长。

目前国内部分视频平台确实有诸如”5分钟拥有你自己的AI语音助手“这样的应用开发教程,但过于碎片化,也缺少前置知识的铺垫。国外有一些比较优质的网课CS224S,但现在已经不再开设。而Hugging Face的这一教程非常适合有深度学习基础但对语音不甚了解的学习者。

项目受众

  • 有深度学习背景的学习者
  • 对Transformer有基本了解的学习者
  • 对音频数据处理感兴趣的学习者

项目亮点

这门语音课程的亮点包括:

  • Transformer技术的深入探索:课程专注于Transformer在音频处理中的应用,包括语音识别、音频分类和文本到语音等任务。

  • 实用案例学习:涵盖了构建音乐流派分类器、转录会议记录的模型等实际应用,提供了学习理论与实践相结合的机会。

  • 面向多层次学习者:课程旨在适合具有深度学习背景的学习者,无需音频数据处理的专业知识。

  • 全面的课程结构:从音频数据的基础处理到构建复杂的音频应用,课程结构全面,覆盖音频Transformer领域的多个关键方面。

项目规划

目录

  1. 欢迎来到课程
  • [x] 对课程的期待
  1. 使用语音数据
  • [x] 你将学到什么
  • [x] 语音数据介绍
  • [x] 加载和探索语音数据集
  • [x] 预处理语音数据
  • [x] 流式化语音数据
  • [x] 小测
  • [x] 补充阅读和材料
  1. 语音应用入门
  • [x] 语音应用概览
  • [x] 音频分类流水线
  • [x] 自动语音识别流水线
  • [x] 音频生成流水线
  • [x] 动手实践
  1. 语音Transformer架构
  • [x] Transformer回顾
  • [x] CTC架构
  • [x] Seq2Seq架构
  • [x] 语音分类架构
  • [x] 小测
  • [x] 补充阅读和材料
  1. 构建音乐流派分类器
  • [x] 你将学到和构建什么
  • [x] 音频分类预训练模型
  • [x] 微调音乐分类模型
  • [x] 使用Gradio构建demo
  • [x] 动手实践
  1. 自动语音识别
  • [x] 你将学到和构建什么
  • [x] 语音识别预训练模型
  • [x] 选择数据集
  • [x] 语音识别评估和指标
  • [x] 使用Trainer API微调自动语音识别系统
  • [x] 构建demo
  • [x] 动手实践
  • [x] 补充阅读和材料
  1. 文本-语音
  • [x] 你将学到和构建什么
  • [x] 文本-语音数据集
  • [x] 文本-语音预训练模型
  • [x] 微调SpeechT5
  • [x] 评估文本-语音模型
  • [x] 动手实践
  • [x] 补充阅读和材料
  1. 组合语音与文本
  • [x] 你将学到和构建什么
  • [x] 语音-语音翻译
  • [x] 创建语音助手
  • [x] 会议转录
  • [ ] 动手实践
  • [ ] 补充阅读和材料
  1. 结语
  • [ ] 恭喜

时间安排

在1月底完成初版翻译和在线文档部署

后续考虑

在翻译工作完成之后,考虑添加Whisper等语音大模型的使用,进一步完善教程。

项目负责人

@YikunHan42 韩颐堃 微信:Sherry___42

样章

hugging-audio

项目地址

hugging-audio

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

  • [X] 我已知悉上述备注

YikunHan42 avatar Dec 06 '23 21:12 YikunHan42

7天内无反对意见则默认立项通过

Sm1les avatar Dec 18 '23 13:12 Sm1les