rainbowjack
rainbowjack
can you tell me the version?thanks a lot
Is TTA included in TTM?
Firstly, due to network issues, I did not configure the environment by running run.sh in the root directory. Instead, I opened it in txt format and installed it line by...
如果能我该输入啥命令呢,找了半天都没找到比如path_of_dataset这种东西
i downloaded the slakh but i dont know where should i put it
I noticed that there is a transformer model in the code, it seems that you have considered using it instead of LSTM, I switched it and found that the performance...
一、请问我的流程是否正确: 1、修改meldataset.py,改为自己的dataloader,使用VCTK数据集以及wav2vec生成伪标签,在train.py上训练出几个ckpt文件 2、使用训练出的最后一个ckpt作为预训练模型,训练train_redecoder.py(有一个疑问是此处用于训练train_redecoder.py的和train所用的数据集一样即可吗?) 3、使用train训练出的ckpt以及train_redecoder.py训练出的ckpt,作用于reconstruct_redecoder.py上进行音色转换 二、请问通过train和train_redecoder.py训练出的ckpt文件是否和您所提供的bin预训练模型有着相同的结构和参数? 感谢解答!
项目中的reconstruct和redecoder reconstruct似乎只能针对预训练文件,也就是bin,我想请教下train训练的pth文件能否用于推理 还有就是想请问不用任何标签也可以训练出解耦音频要素的方法是在哪个文件中体现的 感谢解答
我发现您们所提供的预训练检查点似乎都是只有权重的bin格式,而使用仓库中train训练出来的检查点都是pth格式,先是大小就差了2.5个G 由于我既无法连上HF也无法连上HFmirror,于是我就想着先用自己训练出来的检查点试试,就把检查点的名字改成了pytorch_model.bin,连着config一起放到了checkpoints里 然后我发现训练出来的模型并不能够用于声音重构,因为在reconstruct的时候,模型的键是: dict_keys(['encoder', 'quantizer', 'decoder', 'discriminator', 'fa_predictors']) 而检查点的键是: Keys in ckpt_params: dict_keys(['net', 'optimizer', 'scheduler', 'iters', 'epoch']) 请问是就是这样设计的呢,还是我的使用方法是错误的呢? 最后我想问一下,请问您们是如何不加上任何标签和注释就将一个音频的音色内容音高给解耦开的呢?是用的哪个文件中的哪一段函数呢? 多谢解答
似乎有bug
meldataset.py中68行的clamp是否想打clip? 以及84行的 max_wave_length = max([b[0].size(0) for b in batch]) TypeError: 'int' object is not callable 是否应该改成与上一行一样的shape[0]?