Tacotron-Wavenet-Vocoder-Korean icon indicating copy to clipboard operation
Tacotron-Wavenet-Vocoder-Korean copied to clipboard

tacotron 학습 데이터 문의 드립니다.

Open qustjddn opened this issue 4 years ago • 2 comments

안녕하세요.

음성 합성과 관련된 내용을 공부하고 있는 학생입니다.

좋은 자료 올려주신 덕분에 아주 많은 도움이 되었습니다.

다름이 아니라, datasets에 있는 moon 데이터와 son 데이터는 각각 대략 100개 정도 있는 것 같은데요

이 데이터 만으로는 학습했을 때, 결과가 좋지 않은건 당연한거 겠지요 ~?

혹시 알고 계시다면 대략 평균 3초정도의 음성이 몇개정도 있을 때 유의미한 결과를 볼 수 있을까요 ?

다시한번, 좋은 자료 올려주셔서 정말 감사드립니다

qustjddn avatar Jun 08 '20 05:06 qustjddn

음성 전처리를 하면 분 단위로 얼마 가공됐다 로그가 나오는데요, 타코트론 경우는 4시간 정도 데이터로 소리가 나오긴 하더라구요, 품질이 좀 이상해서 데이터를 다시 만들어야 하나 보고 있습니다만.

같은 데이터로 또 wavenet을 돌리는데, 잡음이 너무 많더리구요.

44.1k mono 음성 네시간 분량입니다.

ocean-park avatar Jun 08 '20 05:06 ocean-park

답변 감사드립니다 :)

qustjddn avatar Jun 09 '20 06:06 qustjddn