SEMLLYCAT
SEMLLYCAT
> > 将 LSTM 更改为 LSTMCell 进行逐帧处理后,我无法使用预训练的累积模型。它有错误:模型中缺少参数和意外参数。是否可以仅使用累积模型进行推理而不进行训练?如果可能我哪里做错了?(我在sequence_model.py中将LSTM更改为LSTMCell) > > 我测试了 LSTM 和 LSTMCell ,它没有帮助。然后,我厌倦了将上一步的隐藏状态和单元状态输入到当前步骤,效果很好。 I have also tried this part, and there is no difference between LSTM and LSTMCell here,...
> 你能分享一下实时代 > > 您好,金雪,感谢您的关注和反馈。 > > 我猜测造成这种差异的主要原因是 LSTM 缺乏状态和状态单元。如果你追求逐帧处理,有两件事: > > > > 1. 除了隐藏逐帧输入特征之外,`torch.nn.LSTM`类与`torch.nn.LSTMCell`类之间的转换是必不可少的一步。在整个使用循环的过程中,将上一步的状态和单元状态输入到当前步骤。 > > 2. 另外,还需要修改归一化方法以支持frame-wise模式。具体来说,首先计算每一帧的动作。然后,参考,使用之前的均值对当前均值进行平滑,屏幕当前帧特征进行归一化。[`cumulative_laplace_norm`](https://github.com/haoxiangsnr/FullSubNet/blob/main/audio_zen/model/base_model.py#L225) > > > > 请注意,`torch.nn.LSTM`此类更改为`torch.nn.LSTMCell`不会导致性能下降,因为只是之前不久的封装。`cumulative_laplace_norm`另外,我测试了不同的归一化方法,至少,和(目前使用的)的性能`offline_laplace_norm`几乎可以。还有另一种标准化方法,称为。仅使用固定大小的窗口中的特征上下文来更新当前帧的控制器。所以可能更适合场景但性能会稍差一些。[`forgetting_norm`](https://github.com/haoxiangsnr/FullSubNet/blob/main/audio_zen/model/base_model.py#L125)`forgetting_norm` > > 谢谢你的建议。 我将上一步的隐藏状态和单元状态输入到当前步骤中,并参考cumulative_laplace_norm修改归一化方法,实时语音增强符合预期,但性能稍差。期待您的逐帧处理代码。 Hello...
> > 我重新修复了一下环境,现在没问题了。你可以看看下面的文章。我用的是 Vision Mamba。你可以尝试使用 whl 文件安装,也许不需要重新安装环境。注意匹配 PyTorch 和 Python 的版本等。 > > ``` > > wget https://github.com/Dao-AILab/causal-conv1d/releases/download/v1.1.3.post1/causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > wget https://github.com/state-spaces/mamba/releases/download/v1.1.1/mamba_ssm-1.1.1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > > pip install causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl >...
> > > 我重新修复了环境,现在没问题了。你可以看看下面的文章。我用的是 Vision Mamba。你可以尝试使用 whl 文件安装,也许不需要重新安装环境。注意匹配 PyTorch 和 Python 的版本等。 > > > ``` > > > wget https://github.com/Dao-AILab/causal-conv1d/releases/download/v1.1.3.post1/causal_conv1d-1.1.3.post1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > wget https://github.com/state-spaces/mamba/releases/download/v1.1.1/mamba_ssm-1.1.1+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl > > > >...
Ok, I am trying. Thank you very much for your reply
> > 您好,感谢您的反馈。 关于人声分离音频中的嘶嘶声,我可以知道你的 Test/nsdr_vocals when batch_size =2 吗? > > 根据我们的实验,Test/nsdr_vocals 位于以下位置: > > * hdemucs_10epoch_batch=2 为 5.49 > * hdemucs_10epoch_batch=4 为 5.40 > > [供您参考,您可以通过此处](https://sutdapac-my.sharepoint.com/:f:/g/personal/kwanyee_heung_sutd_edu_sg/EkmolXU_GwBErxNdT2ax5R4BLWun7MRRuF46fENm3WeczQ?e=iIFEmB)获取上述实验的检查点文件[](https://sutdapac-my.sharepoint.com/:f:/g/personal/kwanyee_heung_sutd_edu_sg/EkmolXU_GwBErxNdT2ax5R4BLWun7MRRuF46fENm3WeczQ?e=iIFEmB) > > 我们注意到一些测试/标签/人声音频已经带有嘶嘶声(例如测试/Arise...
The link you provided cannot be opened
> 你好,我自己训练HDemus模型。但是,我发现分离的音频(人声)中有嘶嘶声。除了设置 batch=2 之外,我完全按照你的步骤操作。你能帮帮我吗?或者给我一个 resume_checkpoint 来检查! Hello, is it convenient to offer checkpiont
Thank you for your reply. I may not have expressed myself clearly. I wonder if it is convenient for you to provide the pre-training model of your version of pytorch_lightning....