太郎君

Results 70 comments of 太郎君

> 将offset和confidence评估不符合的数据从数据集移除? 是的,将offset和confidence评估不符合的数据从数据集移除

> > > 将offset和confidence评估不符合的数据从数据集移除? > > > > > > 是的,将offset和confidence评估不符合的数据从数据集移除 > > 兄弟,我有个新的疑惑想向你确认一下,offset据作者说[-1,1]是最合适的,那么confidence呢。应该怎么判断是否符合,大于3? #93 作者说的是 [6,9],我用的是 >= 5

1. 是不是每句话进行一切割,英文控制在3~5秒 2. 视频是否25帧 3. 音频是否16000赫兹采样 4. 检测音视频是否对齐

> I think dinet is better than iplap 期待 Syncnet_color training using deepspeech, melspectrogram

> > > > @zdh6090 你好,我中文训练的时候,卡在 color_syncnet_train.py,一直是 0it【00:00,?it/s】咋办,求教求教 > > > > > > > > > 你是自己制作的中文数据集吗? > > > > > > 我用的央视的数据集,然后 filelists 我也按照要求改了,不管是 color_syncnet_train.py还是 hq_wav2lip_train.py都是卡在 0it,呜呜呜...

> > > 目前能够完美去边框,重新训练了一个中文的数据集,但是解决不了高清的问题(不想通过gfpgan的方式,太慢)请问有朋友解决的吗,付费学习一下。[[email protected]](mailto:[email protected]),谢谢! > > > > > > 兄台请教下,结果出现边框是由于什么原因导致的? > > 从目前测试情况看,你的数据集的背景颜色要多样化才行。我之前的数据集都是基于新闻类的蓝色背景,所以训练出来的效果边框特别明显,都是蓝色底边框,后来加了些各种颜色的数据集,重新再训练,就好很多了。不过这个训练对数据集要求太高了,我感觉我的数据集质量问题很大。 确实,Wav2Lip对数据集的要求很高,Wav2Lip288更是如此

> > > 你好问下这个卡在 color_syncnet_train.py,一直是 0it【00:00,?it/s】问题解决了吗? > > > > > > models->conv2.py 第12行改成ReLU > > 请问,改了这个还是会卡住,可能是什么问题呢? 是不是环境没配好,我之前 python3.9 + cuda11.9也是卡在那里,后面降级到 python3.6 + cuda11.7才正常

查了一下日志,提示 RuntimeError: Failed to load audio from separated/htdemucs/my-voice_1/vocals.wav 就是这一行有问题 sr = torchaudio.load(os.path.join("separated", "htdemucs", fname, "vocals.wav") 请问这个文件是干啥的,哪里可以下载到呢

问题解决了,应该是这行语句就失败了 os.system(f"demucs --two-stems=vocals {file}") 这个 demucs是 facebook的库,安装命令为 pip install -U 'https://github.com/facebookresearch/demucs'