TFGAN-PLC icon indicating copy to clipboard operation
TFGAN-PLC copied to clipboard

A Temporal-Spectral Generative Adversarial Network based End-to-end Packet Loss Concealment for Wideband Speech Transmission

Results 11 TFGAN-PLC issues
Sort by recently updated
recently updated
newest added

Noisy data is randomly lost at 320 points per frame, with a packet loss rate of 5% -30%. Data with different packet loss rates are mixed together, and the generated...

您好,受您的论文启发,我在尝试复现这篇论文,有个问题想请教下,在训练因果版本的时候,输入的生成器的输入noisy是怎么构造的?我的理解根据论文图2和公式4中描述,前7帧取正常语音最后一帧用0填充,生成器的输出最后一帧作为预测帧,不知道是不是这样做的。

我将对应数据路径修改成我的路径后显示dataloader returned 0 length,请问是我引入路径有问题还是代码还有哪里需要修改 如果您有时间可以回复我一下,感谢您 以下是我代码的修改部分: parser.add_argument('--data_dir', default='H:/MASG_Packloss_train/train.npy', type=str) parser.add_argument('--val_data_dir', default='H:/MASG_Packloss_train/sentences.npy', type=str) parser.add_argument('--output_path', default='./outputs', type=str) parser.add_argument('--test_data_dir', default='H:/MASG_Packloss_test/', type=str)

下载了您的代码,只修改了数据,数据用的是interspeech PLC竞赛的数据,训了13个epoch,丢帧生成的数据几乎为0.

Hello, when I debug your work, the PL version is different, so I have a lot of trouble. So is it convenient for you to tell me your version?

我参考 https://github.com/szuer2018/NNSC/blob/master/GANSC/prepare_data.sh 中的方法准备好了 clean_trainset_56spk_wav_16k 的数据。 其中 clean_trainset_56spk_wav_16k/validation 已及 clean_trainset_56spk_wav_16k/test 文件夹的数据是如何准备的?我该在哪里获取相关方法。

Is any full list of requirements of packages and libraries for running the training ? Also trainer.py 22 string pesq isn't imported anywhere. After was able to run training on...

您的论文很有启迪性! 我阅读了您的论文以及代码,有些关于帧级训练的问题希望您可以解答。 1,对于论文中描述的根据丢包前6帧(因果版本)和丢包前4帧+后3帧(非因果版本)的帧级训练在代码的那部分有体现呢?我并未在trainer,dataset或者model中找到对应代码,如有请您帮我指出。 2,之前我也是采用非因果模型进行丢包补偿,请问对于您的代码因果版本是只需要将输入改为过去帧,并引入丢包检测,其他部分还需要修改吗?

你好请教下,复现过程中,发现论文中loss计算与训练脚本有几点不一致: 1、论文中wav discriminator和spec discriminator 的loss是不同权重的,通过λ参数指定,训练代码是1比1直接相加 2、训练脚本中,generator loss增加了multi-resolution STFT loss,论文中没有 训练脚本的改动是优化改动,还是应该手动改成和论文一致? 另外一个问题是模型(默认非因果版本代码,slice len和shift都为2560(帧长160ms))输出,在每个帧(160ms)拼接处都会存在噪点,请较这个问题该如何优化?

Hi, I would like to train your model with 48 kHz data, which parameters should I change? Thank you.