nl8590687

https://blog.ailemon.net/

Xidian University China

Results 94 comments of


nl8590687

为什么不用WFST解码呢？

请问您说的是语言模型吗？我了解了解。

为什么不用WFST解码呢？

好的谢谢~ 我去了解了解

使用自己的音频文件预测过程中出现的问题

音频的最大时间长度不能长于16秒，我在项目文档中都写过的。 https://asrt.ailemon.me/docs/

没有在gpu上训练

因为你没有安装GPU环境

训练261的时候有时候能收敛有时候不能

因为具有随机性

训练261的时候有时候能收敛有时候不能

大概10左右是可以的，降不下去要手动调参

请问下这个可以对方言(四川话)进行训练识别吗

如果您有方言数据集的话您可以自行训练可识别方言的模型

model_language 没有提供训练方式

看ASRT项目文档，上面有对语言模型的原理和生成的介绍

音频文件规范问题

很明显，这是音频文件的时间长度过长导致的，可以参考ASRT项目文档上所述的内容，一条语音数据的最长时间长度当前限制为不能超过16秒，超过的话很容易导致模型的数据尺寸过大进而引发Memory不足的问题，尤其是在使用不太先进的GPU运行的时候。如果存在较长时间的音频，首先应当切割为一段段比较短的音频片段。

可以提供麦克风的示例不

可以看下ASRT项目文档中关于Windows客户端demo的内容