gtcrn issues

hz2ERB的系数

7

你好：非常感谢你的开源模型。让我学到了许多。在学习过程中我发现，你给出的hz2erb函数是erb_f = 24.7*np.log10(0.00437*freq_hz + 1)定义的，但查阅相关资料发现erb_f=21.366*np.log10(0.00437*freq_hz + 1),期待你的回复！

Fylll

单频和扫频信号保留

1

在测试算法的频响的时候，单频和扫频信号会作为噪声被消除，这样的话无法测试出频响曲线和失真，请问老师对这个问题怎么解决？祝您工作顺利！

FisherDom

训练效果和公开模型差异问题

7

你好，非常感谢你开源的模型，模型里面借鉴的东西也很多！在复现你的模型，除了训练数据制作方面有些差异外，其他都一样，但是出来的效果和你公开模型跑出来效果差异还挺大的，请问数据合成这块脚本可否提供借鉴，非常感谢！邮箱：[email protected]

lflyme

offline和online推理速度差异

1

我在X86平台和ARM平台上测试offline和online的RTF, 发现online版本会慢上27倍左右. 但是从CPU占用率上看, 两个版本的GTCRN的使用率都接近100%, 请问这运行速度上的差异可能是什么原因导致的?

CaA23187

关于输入特征会导致性能下降的问题

1

亲爱的作者, 为了进一步缩小模型和降低计算量，我尝试了仅用 spec.abs() 和 spec.angle() 作为输入，最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗？ Thanks!

TungyuYoung

1. SFE模块的unfold可以用如下模块代替，可以减少很多算子 ``` import torch import torch.nn as nn class Unfold(nn.Module): def __init__(self): super().__init__() kernel = torch.eye(3) kernel = kernel.view(3, 1, 1, 3) kernel = nn.Parameter(kernel.repeat(8, 1, 1, 1)) self.conv...

SherryYu33

GTCRN实际上还是对幅度谱做mask？

2

您好：非常感谢您的开源模型。我目前正在基于您的模型进行一些测试，注意到GTCRN的输出通过tanh激活并预测实部和虚部的mask，对预测出来的mask与输入特征的实部虚部做了复数乘法得到了预测特征。而当我将虚部mask的值打印出来时，发现在大部分情况下，mask的值都是接近于0（大约在10^-3~10^-4或者更低)，我使用了两个checkpoints对test_wavs/mix.wav进行测试，以及使用了一些本地数据进行测试，基本都是这个现象。关于上述现象：1. GTCRN是否实际上已经退化成了幅度谱的mask。2. 如果确实发生了退化，这种退化的可能原因是什么，以及是否可以通过训练目标的选择，或者是模型的调整，将GTCRN的恢复到对CRM的估计？期待您的回复，谢谢！

HuixiangH

数据制作脚本问题请教

1

你好，首先非常感谢你的开源精神，想了解下你的数据制作是直接用微软dns里面的脚本的吗？比如有clean，noise数据集，你需要合成noisy数据，你这个合成是直接参考dns的脚本生成的还是自己加入一些特殊处理实现的脚本？因为对于网络训练而言，数据生成这块才是关键所在，数据直接决定了网络的性能，请指教，谢谢！

lflyme

GTCRN的look-ahead是70ms吗

2

Oliver0047

gtcrn
gtcrn copied to clipboard

Metadata

hz2ERB的系数

单频和扫频信号保留

训练效果和公开模型差异问题

offline和online推理速度差异

关于输入特征会导致性能下降的问题

DNS3 blind test set

导出onnx的stream模型时可以优化一点点的两个方法

GTCRN实际上还是对幅度谱做mask？

数据制作脚本问题请教

GTCRN的look-ahead是70ms吗

← Metadata

Owner

Metadata

gtcrn gtcrn copied to clipboard

Metadata

← Metadata

Owner

Metadata

gtcrn
gtcrn copied to clipboard