SEMLLYCAT comments

Results 12 comments of


                                            SEMLLYCAT

The real-time speech enhance is poor

> > 将 LSTM 更改为 LSTMCell 进行逐帧处理后，我无法使用预训练的累积模型。它有错误：模型中缺少参数和意外参数。是否可以仅使用累积模型进行推理而不进行训练？如果可能我哪里做错了？（我在sequence_model.py中将LSTM更改为LSTMCell） > > 我测试了 LSTM 和 LSTMCell ，它没有帮助。然后，我厌倦了将上一步的隐藏状态和单元状态输入到当前步骤，效果很好。 I have also tried this part, and there is no difference between LSTM and LSTMCell here,...

The real-time speech enhance is poor

> 你能分享一下实时代 > > 您好，金雪，感谢您的关注和反馈。 > > 我猜测造成这种差异的主要原因是 LSTM 缺乏状态和状态单元。如果你追求逐帧处理，有两件事： > > > > 1. 除了隐藏逐帧输入特征之外，`torch.nn.LSTM`类与`torch.nn.LSTMCell`类之间的转换是必不可少的一步。在整个使用循环的过程中，将上一步的状态和单元状态输入到当前步骤。 > > 2. 另外，还需要修改归一化方法以支持frame-wise模式。具体来说，首先计算每一帧的动作。然后，参考，使用之前的均值对当前均值进行平滑，屏幕当前帧特征进行归一化。[`cumulative_laplace_norm`](https://github.com/haoxiangsnr/FullSubNet/blob/main/audio_zen/model/base_model.py#L225) > > > > 请注意，`torch.nn.LSTM`此类更改为`torch.nn.LSTMCell`不会导致性能下降，因为只是之前不久的封装。`cumulative_laplace_norm`另外，我测试了不同的归一化方法，至少，和（目前使用的）的性能`offline_laplace_norm`几乎可以。还有另一种标准化方法，称为。仅使用固定大小的窗口中的特征上下文来更新当前帧的控制器。所以可能更适合场景但性能会稍差一些。[`forgetting_norm`](https://github.com/haoxiangsnr/FullSubNet/blob/main/audio_zen/model/base_model.py#L125)`forgetting_norm` > > 谢谢你的建议。我将上一步的隐藏状态和单元状态输入到当前步骤中，并参考cumulative_laplace_norm修改归一化方法，实时语音增强符合预期，但性能稍差。期待您的逐帧处理代码。 Hello...

FATAL ERROR! pool allocator destroyed too early (nil) still in use

@nihui

selective_scan_cuda

> > 我重新修复了一下环境，现在没问题了。你可以看看下面的文章。我用的是 Vision Mamba。你可以尝试使用 whl 文件安装，也许不需要重新安装环境。注意匹配 PyTorch 和 Python 的版本等。 > > ``` > > wget https://github.com/Dao-AILab/causal-conv1d/releases/download/v1.1.3.post1/causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > wget https://github.com/state-spaces/mamba/releases/download/v1.1.1/mamba_ssm-1.1.1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > > pip install causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl >...

selective_scan_cuda

> > > 我重新修复了环境，现在没问题了。你可以看看下面的文章。我用的是 Vision Mamba。你可以尝试使用 whl 文件安装，也许不需要重新安装环境。注意匹配 PyTorch 和 Python 的版本等。 > > > ``` > > > wget https://github.com/Dao-AILab/causal-conv1d/releases/download/v1.1.3.post1/causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > wget https://github.com/state-spaces/mamba/releases/download/v1.1.1/mamba_ssm-1.1.1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > >...

Low volume vocal segments are suppressed

Ok, I am trying. Thank you very much for your reply

A Great Work

> > 您好，感谢您的反馈。关于人声分离音频中的嘶嘶声，我可以知道你的 Test/nsdr_vocals when batch_size =2 吗？ > > 根据我们的实验，Test/nsdr_vocals 位于以下位置： > > * hdemucs_10epoch_batch=2 为 5.49 > * hdemucs_10epoch_batch=4 为 5.40 > > [供您参考，您可以通过此处](https://sutdapac-my.sharepoint.com/:f:/g/personal/kwanyee_heung_sutd_edu_sg/EkmolXU_GwBErxNdT2ax5R4BLWun7MRRuF46fENm3WeczQ?e=iIFEmB)获取上述实验的检查点文件[](https://sutdapac-my.sharepoint.com/:f:/g/personal/kwanyee_heung_sutd_edu_sg/EkmolXU_GwBErxNdT2ax5R4BLWun7MRRuF46fENm3WeczQ?e=iIFEmB) > > 我们注意到一些测试/标签/人声音频已经带有嘶嘶声（例如测试/Arise...