Tacotron2-Wavenet-Korean-TTS
Tacotron2-Wavenet-Korean-TTS copied to clipboard
문장의 끝을 잘 발음하지 못하는 문제가 있습니다.
어떤 문장은 끝까지 잘 발음하지만 어떤 문장은 끝을 잘 발음하지 못하고 잘립니다. 혹시 이유를 아시나요? stop token의 문제일 수 도 있을까요?
이건 train dataset이나, max_iter에 영향을 받는 것 같습니다. 제가 돌린 경우에도, 말씀하신 현상은 종종 나왔습니다.
저도 이런 문제가 발생하던데.....그런데 특이한건 사운드편집 프로그램(Audacity등)으로 파일을 열었을때는 음성이 끝까지 잘 나옵니다. 그런데 그걸 그대로 파일로 저장해서 들으면 또 끝이 짤려서 들리고요..
데이터셋은 KSS와 직접 녹음해서 만든 정제된 데이터셋 2개를 이용했습니다.
혹시 윈도우10 기본 플레이어 (Groove 음악)로 하셨나요? 아마도 프로그램에서 맨 끝 부분에 페이드아웃 처리를 하는 것 같습니다. 전 아직 합성 결과에서 끝 발음이 흐려지는 경우는 없었지만, 예전 윈도우 미디어 플레이어로 들었을 때 끝이 짤리지 않는 걸 확인할 수 있었습니다.
저는 끝음은 잘 나오는 것 같은데 갑자기 뚝 끊기듯이 끊겨버립니다. 윈도우 기본 플레이어 이외에 크롬이나 엣지, 사운드편집 프로그램으로 열었을 때도 뚝 끊기는 느낌으로 끊기는데 train dataset에 문제가 있다면 데이터들의 음성 뒤에 소리없이 길이만 길게 해서 변경하면 될까요? max_iter은 값을 더 증가시키면 이러한 현상이 해결될까요?
2년도 넘은 이야기이긴 하지만 attention_trim을 False로 하니 문제가 사라졌습니다.