Multi-Tacotron-Voice-Cloning icon indicating copy to clipboard operation
Multi-Tacotron-Voice-Cloning copied to clipboard

Обучение нейронки

Open Misterpin opened this issue 4 years ago • 8 comments

Доброго времени суток! Как начать С НУЛЯ обучать нейронку? (т.е не нужен pretrained model)

Misterpin avatar Nov 20 '20 18:11 Misterpin

Не скачивать веса

vlomme avatar Nov 20 '20 18:11 vlomme

Насколько я правильно понял, в колабе, который Вы привели как пример, нужно лишь не запускать два блока, где скачивание и распаковка архива pretrained, тогда нейронка обучается с нуля, так? И насколько большой объем файла вместо ex.wav должен быть, чтобы желаемый голос у нейронки был почти идеален?

Misterpin avatar Nov 20 '20 19:11 Misterpin

Preparing the encoder, the synthesizer and the vocoder... Traceback (most recent call last): File "demo_cli.py", line 67, in encoder.load_model(args.enc_model_fpath) File "/content/Multi-Tacotron-Voice-Cloning/encoder/inference.py", line 33, in load_model checkpoint = torch.load(weights_fpath) File "/usr/local/lib/python3.6/dist-packages/torch/serialization.py", line 581, in load with _open_file_like(f, 'rb') as opened_file: File "/usr/local/lib/python3.6/dist-packages/torch/serialization.py", line 230, in _open_file_like return _open_file(name_or_buffer, mode) File "/usr/local/lib/python3.6/dist-packages/torch/serialization.py", line 211, in init super(_open_file, self).init(open(name, mode)) FileNotFoundError: [Errno 2] No such file or directory: 'encoder/saved_models/pretrained.pt' Ругается что нет предобученной модели

Misterpin avatar Nov 20 '20 19:11 Misterpin

В калабе нет обучения Для хорошего качества надо 1000 голосов и 1000 часов записей

vlomme avatar Nov 20 '20 19:11 vlomme

В калабе нет обучения Для хорошего качества надо 1000 голосов и 1000 часов записей

а есть смысл доучивать pretrained модель которую предоставили? и сколько итераций должно быть для "хорошего качества"? Есть ли готовая модель, которая хотя бы слегка похоже клонирует русскую речь?

kerisac avatar Dec 16 '20 20:12 kerisac

Добрый день! А модель encoder, веса к которой вы предоставляете уже дообучена на русской речи или используеться оригинальный encoder с Real-Time-Voice-Cloning? (я знаю, что можно использовать encoder обученый только на англ речи но я использую его для задачи голосовой биометрии и хотел повысить качество эмбедингов дообучив и на русской речи) Спасибо!

michaelgfeldman avatar Dec 31 '20 09:12 michaelgfeldman

В калабе нет обучения Для хорошего качества надо 1000 голосов и 1000 часов записей

А для одного голоса сможет обучится? т.е нужно копирование одного голоса

webbrows avatar Aug 14 '21 04:08 webbrows

Если вам нужно копирование одного голоса - обучите обычный tacotron 2(в идеале 40+ часов).

fancat-programer avatar Sep 30 '21 16:09 fancat-programer