太郎君 comments

Results 66 comments of


                                            太郎君

> How fast is inference on a 4090? > > 用4090生成速度怎么样? 推理还挺快的，比方说这个 6296帧480x480的视频，时长 00:04:11.84，耗时 03:35，可以做到实时的。 NeRF is rendering frames...: 100%|█████████████████████████████████████████████████████████████████████████████████| 6296/6296 [03:35

训练阶段不是端到端的吗

不是，Wav2Lip才是端到端的

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

我刚下下来CMLR，正准备训练

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

> 收到，谢谢

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

> cmlr数据集有个缺点，就是说话人只有11个，而且都是播音腔，这个会导致后面用别的音频去生成的视频的时候效果很差，我用了接近播音腔的tts合成的音频，生成的效果还可以，但是用自己说话的音频的话，效果特别差。最近打算用lrw-1000去做训练，看看效果怎么样老铁，请问你语音克隆用的是哪个呀，我目前还没找到一个好用的开源项目，谢谢

Top Common Error? Processing Target Person Video

这个错误应该是第 10步 python data_gen/nerf/binarizer.py --config=egs/datasets/videos/$VIDEO_ID/lm3d_radnerf.yaml 产生的，应该是你传入的 config路径参数错误，楼主可以检查一下

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

> 语音克隆用的是讯飞的，公司采购的收到，谢谢

您好，请问为什么我在谷歌云盘下载的处理好的数据集解压下来，缺少三个文件呢？请问这是什么原因造成的呢？没有stats.npy\train.idx\val.idx

我这边谷歌云盘下载也是没有这三个的 $ ll lrs3 total 29343468 drwxrwxr-x 2 tailangjun tailangjun 4096 3月 15 09:22 ./ drwxrwxrwx 8 tailangjun tailangjun 4096 8月 31 20:22 ../ -rw-rw-r-- 1 tailangjun tailangjun 232112 3月...

您好，请问为什么我在谷歌云盘下载的处理好的数据集解压下来，缺少三个文件呢？请问这是什么原因造成的呢？没有stats.npy\train.idx\val.idx

> 一样的情况，请问有影响么？没影响

太郎君

RTX4090

RTX4090

训练阶段不是端到端的吗

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

Top Common Error? Processing Target Person Video

用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

您好，请问为什么我在谷歌云盘下载的处理好的数据集解压下来，缺少三个文件呢？请问这是什么原因造成的呢？没有stats.npy\train.idx\val.idx

您好，请问为什么我在谷歌云盘下载的处理好的数据集解压下来，缺少三个文件呢？请问这是什么原因造成的呢？没有stats.npy\train.idx\val.idx