LazyNam
LazyNam
I follot the steps of the part Quick Start, the commands as follows:  and the program runs with no bug, but the output is weird, there is only a...
学长您好,我基于您的基础上在流式推理上进行了探索,也读过ISSUE当中几个有关因为因果性实现不了实时的讨论,并做了一些实践,想请教下您。 然而我一开始尝试的是将一长度为60s的语音,基于以下命令: ffmpeg -i input.wav -ss 00:00:xx -t 00:00:01 output.wav 编写一个bash脚本,切割成60个.wav文件,通过inference增强后再使用ffmpeg进行拼接。 然而我发现了一个问题: 包含人声的片段的1s依旧会得到增强,然而在一些raw语音是静默的片段,却会产生啸叫。 以下三张为语谱图,从上到下依次为原声,直接增强,基于1s为片段的增强拼接合成:  可以在语谱图上发现也会出现一些冲激。 然而并不是只要是silence的片段,就会产生啸叫,为此我做了以下实验: wav = 0.0000001*np.random.randn(100000,) 生成一个能量极小的白噪声。 采样率为16k,我把其保存成.wav文件再做增强,同样地,也尝试过分割后增强,但是结论是并没有啸叫,只有白噪声本身被增强。 想请问下您基于算法原理,作为作者对这类问题的思考是怎样的?
作者您好,我注意到整个部署流程是将一个model拆成两个部分使用NCNN进行部署。 其中STFT层交给C++的FFTW3来实现。 但我注意到STFT的过程是分帧加窗后再加FFT,而C++的处理貌似少了加窗这一步,这一部分是否会造成一些误差呢?想听听设计代码的你是怎么考虑的。
作者您好,我最近一直在复现这篇DTLN—NS和DTLN-AEC的论文,也成功参考您的部署实现在开发板上运行。目前还想要再提高运行效率,想采用量化的方式。 目前的困境是如果使用torch.quantization导出的torchin8模型不能经过ncnn模型转换,而如果使用ncnn本身的量化工具(https://github.com/Tencent/ncnn/blob/master/docs/how-to-use-and-FAQ/quantized-int8-inference.md) 的话,其需要一个校准集合,说白点就是感觉推理框架MNN,NCNN的量化工具都是为了图像算法而设计的。 感觉您对语音及ncnn这个框架挺熟悉的,不知道您对音频算法在ncnn上的量化方案有什么建议呢?