xiaozhi-esp32 icon indicating copy to clipboard operation
xiaozhi-esp32 copied to clipboard

语音唤醒困难,唤醒后能正常对话

Open 84864797 opened this issue 9 months ago • 4 comments

大佬你好 !语音唤醒困难,唤醒后能正常对话, 往往十几句小智你好 都不能唤醒 这个怎么解决?

84864797 avatar Mar 08 '25 09:03 84864797

  1. 排除方言口音问题
  2. 去后台听一下唤醒的语音,看看是否有异常

84864797 @.***> 于2025年3月8日周六 17:27写道:

大佬你好 !语音唤醒困难,唤醒后能正常对话, 往往十几句小智你好 都不能唤醒 这个怎么解决?

— Reply to this email directly, view it on GitHub https://github.com/78/xiaozhi-esp32/issues/306, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABCHXRK4Z4KL5REYU5QYDK32TKZZDAVCNFSM6AAAAABYS27BFCVHI2DSMVQWIX3LMV43ASLTON2WKOZSHEYDINRXGA2TMNQ . You are receiving this because you are subscribed to this thread.Message ID: @.***> [image: 84864797]84864797 created an issue (78/xiaozhi-esp32#306) https://github.com/78/xiaozhi-esp32/issues/306

大佬你好 !语音唤醒困难,唤醒后能正常对话, 往往十几句小智你好 都不能唤醒 这个怎么解决?

— Reply to this email directly, view it on GitHub https://github.com/78/xiaozhi-esp32/issues/306, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABCHXRK4Z4KL5REYU5QYDK32TKZZDAVCNFSM6AAAAABYS27BFCVHI2DSMVQWIX3LMV43ASLTON2WKOZSHEYDINRXGA2TMNQ . You are receiving this because you are subscribed to this thread.Message ID: @.***>

78 avatar Mar 08 '25 10:03 78

你好 后台 语音清晰 经过试验环境音 对语音唤醒的影响很大 比如鸟叫 风声 汽车驶过的声音 远处音乐声。 如果在夜晚房间内 ,语音唤醒 成功率很高。 后续固件 能否对这方面进行优化?

84864797 avatar Mar 11 '25 03:03 84864797

deepseek是这么说的: ESP32-S3在唤醒词识别和后续语音交流中的识别率差异,主要源于以下几个原因:

  1. 唤醒词识别的挑战 环境噪声:唤醒词识别通常在设备待机时进行,环境噪声(如背景音乐、人声等)可能干扰识别。

低功耗限制:为了节能,唤醒词检测模块在低功耗模式下运行,计算能力受限,影响识别精度。

短时语音:唤醒词通常较短,特征信息较少,模型难以准确提取和匹配。

  1. 唤醒后的语音识别优势 全功耗模式:唤醒后,ESP32-S3进入全功耗模式,计算资源充足,能够运行更复杂的语音识别算法。

上下文信息:语音交流通常包含更多上下文信息,模型可以利用这些信息提高识别准确性。

噪声抑制:唤醒后,设备可以启用更高级的噪声抑制算法,减少环境噪声的干扰。

  1. 模型复杂度 唤醒词模型:唤醒词检测模型通常较小,以适应低功耗需求,但牺牲了部分精度。

语音识别模型:唤醒后的语音识别模型更复杂,能够处理更丰富的语音特征,识别率更高。

  1. 硬件资源分配 唤醒阶段:在唤醒阶段,硬件资源主要用于低功耗运行,计算能力有限。

语音交流阶段:唤醒后,硬件资源完全释放,能够支持更高效的语音处理。

  1. 用户交互优化 唤醒词设计:唤醒词通常较短且固定,容易受到干扰。

语音交流:语音交流内容更丰富,模型可以通过上下文和语义分析提高识别率。

总结 ESP32-S3在唤醒词识别阶段受限于低功耗、环境噪声和短时语音特征,识别率较低;而唤醒后,设备进入全功耗模式,能够利用更复杂的算法和上下文信息,显著提高语音识别率。

rockform avatar Mar 11 '25 11:03 rockform

喇叭声音开到最大,用唤醒词打断效果很差,要靠近麦克风喊唤醒词才能打断,你们是否是这样,唤醒词打断不理想esp32s3

luckyxiangfeng avatar May 04 '25 15:05 luckyxiangfeng