LazyNam issues

Results 4 issues of


                                            LazyNam

Question about the output of Quick Start.

I follot the steps of the part Quick Start, the commands as follows: ![image](https://user-images.githubusercontent.com/48951434/197444325-051db2f6-e7e2-4565-9a4d-c267b603fb15.png) and the program runs with no bug, but the output is weird, there is only a...

有关流式推理的探索。

学长您好，我基于您的基础上在流式推理上进行了探索，也读过ISSUE当中几个有关因为因果性实现不了实时的讨论，并做了一些实践，想请教下您。然而我一开始尝试的是将一长度为60s的语音，基于以下命令： ffmpeg -i input.wav -ss 00:00:xx -t 00:00:01 output.wav 编写一个bash脚本，切割成60个.wav文件，通过inference增强后再使用ffmpeg进行拼接。然而我发现了一个问题：包含人声的片段的1s依旧会得到增强，然而在一些raw语音是静默的片段，却会产生啸叫。以下三张为语谱图，从上到下依次为原声，直接增强，基于1s为片段的增强拼接合成： ![截屏2022-11-09 下午4 51 05](https://user-images.githubusercontent.com/48951434/200784245-804e9ac7-4957-4f8f-b270-c8416c82c35e.png) 可以在语谱图上发现也会出现一些冲激。然而并不是只要是silence的片段，就会产生啸叫，为此我做了以下实验： wav = 0.0000001*np.random.randn(100000,) 生成一个能量极小的白噪声。采样率为16k，我把其保存成.wav文件再做增强，同样地，也尝试过分割后增强，但是结论是并没有啸叫，只有白噪声本身被增强。想请问下您基于算法原理，作为作者对这类问题的思考是怎样的？

有关模型部署FFT的问题

作者您好，我注意到整个部署流程是将一个model拆成两个部分使用NCNN进行部署。其中STFT层交给C++的FFTW3来实现。但我注意到STFT的过程是分帧加窗后再加FFT，而C++的处理貌似少了加窗这一步，这一部分是否会造成一些误差呢？想听听设计代码的你是怎么考虑的。

关于NCNN模型量化的问题

作者您好，我最近一直在复现这篇DTLN—NS和DTLN-AEC的论文，也成功参考您的部署实现在开发板上运行。目前还想要再提高运行效率，想采用量化的方式。目前的困境是如果使用torch.quantization导出的torchin8模型不能经过ncnn模型转换，而如果使用ncnn本身的量化工具(https://github.com/Tencent/ncnn/blob/master/docs/how-to-use-and-FAQ/quantized-int8-inference.md) 的话，其需要一个校准集合，说白点就是感觉推理框架MNN，NCNN的量化工具都是为了图像算法而设计的。感觉您对语音及ncnn这个框架挺熟悉的，不知道您对音频算法在ncnn上的量化方案有什么建议呢？