FireRedTTS icon indicating copy to clipboard operation
FireRedTTS copied to clipboard

An Open-Sourced LLM-empowered Foundation TTS System

Results 12 FireRedTTS issues
Sort by recently updated
recently updated
newest added

@FireRedTeam what the license about this project? thanks

感谢你们的开源工作,这个模型很不错 我有个问题想问下,请问有关于副语言token如何使用的指南吗? 比如,论文和demo中提到的 `[word_rep]` `谁@知@道@啊` `(realization)[prolong]`,这些标记 还有,Emotion如何控制,代码中目前好像并不包含这些内容?

比如说选中文带了数字或者某些符号,就会鬼畜,还有就是长段文字就会漏字,嗯,有很多问题

https://github.com/zhaoyun0071/FireRedTTS-windows-GUI V1.0 版本:2024-10-13 1、支持多种切字模式,解决长文字生成混乱问题,所以不限制输入文字长度了; 2、支持生成音频的同时,生成和音频名字一样的srt字幕文件; 3、支持txt导入,将txt里的内容转换成音频; 4、支持srt导入,将字幕里的文字转换成音频,保持时间轴一样。

和 CosyVoice 比较,感觉在语音 clone 上比和 CosyVoice 好很多,速度也快。 但是整体完成度比和 CosyVoice 差太多。而且很短一句话也经常重复发音,有时候莫名其妙发音。需要处理的事情还很多。 希望可以出更加完成度高的模型。

![image](https://github.com/user-attachments/assets/7fed9876-aef9-45ea-a8dc-e4bed72fd69d) 1. 如图,对于长句子会输出不合理的音频, 2. 似乎默认语速会很快,这是不是训练代码有bug,还是预料分布问题

hi how to token the paralingustics, synthesize the wav like the demos you have showed ? 当然需求的话[oralsii]肯定是有这一部分的。 当然需求的话肯定[tsk]是有这一部分的。谁@知@道@啊,它里面才出现那么几个镜头,而且我就感觉他是客@串@的 thank you very much!

Hi! First of all, thanks for the great work. I noticed that the paper mentions examples of instruction tuning (including emotions and paralinguistics), which I believe are not currently supported....

Great job! Is the streaming decoder open source?

Thank you for the paper and code. Voice cloning is excellent, however, for text to speech I'm experiencing word errors. Here is an example [Prompt audio file](https://github.com/user-attachments/assets/c3e71d6d-419a-4a27-b2cd-ced620f60ee0) Transcript: "This comprehensive...