MOSS-TTSD icon indicating copy to clipboard operation
MOSS-TTSD copied to clipboard

新版模型说话人切换出错

Open BestMt111 opened this issue 1 month ago • 6 comments

相比于v0.5,说话人切换错误频率过高。测了7条,有5条都出现了错误。 以下是测试数据: {"base_path": "***", "text": "[S1]朋友们大家好呀,欢迎来到咱们的文化闲聊时间,我是你们的主持人小雅。今天啊,咱们要聊一位民国时期的女神级人物,那可是娱乐圈的一股清流啊,凭啥能在美女如云的演艺圈脱颖而出成为传奇呢。[S2]是啊,小雅说得对,这个话题很有意思。我是中文系的李教授,平时啊最爱研究这些文化名人的故事了。今天咱们就一起聊聊这位夏梦女士吧,她的人生简直就是一部活生生的电影。[S1]哇,李教授都这么说了,那咱必须得好好聊聊呀。夏梦这人啊,长得那叫一个美,还被大家叫做东方的赫本呢。那我们就直接开始吧。[S2]好,咱们先说说她的早期经历吧。夏梦打小就气质出众,六岁参加上海那个童摄影比赛就拿头奖了。嗯...我想想啊,十四岁迁居香港后,在玛利诺修院学校就开始演舞台剧了。[S1]哎说到这个,她十七岁加入长城电影公司后,艺名就叫夏梦了。主演禁婚记娘惹这些片子,一下红遍半边天。那、怎么就能这么火呢。[S2]其实啊,她不是光靠脸吃饭的。气质太独特了,清新雅致,就像从画里走出来的东方佳人。照片里她和周总理握手时,那股端庄劲儿啊。[S1]还真是啊,我看过她和毛主席的合照,举止大方,笑容温柔。难怪被称香港西施。可是光外表美就能成传奇吗。[S2]不不不,她内在更厉害。文化程度高,还能在杂志写万字长文。那时候女星读书少,她简直就是异类。演技情商都很强,和人相处特谦逊。[S1]哇,那她挺全才的嘛。呃,听说身高一米七,还爱运动对吧。篮球游泳啥的都擅长,这体质也太好了。[S2]是的是的,身体健美,思想也独立。她那本从影一年的自传,就是深度思考的结晶。可是啊,最难得的还是她那份低调劲儿。[S1]确实。哎,娱乐圈那么乱,她咋就能零绯闻呢。二十一岁嫁给普通商人林葆诚,婚后还继续拼事业。这婚姻有啥秘诀啊。[S2]嗯...这个啊,就是咱们要总结的了。夏梦早期经历的核心在于,美貌只是敲门砖,真正让她闪耀的是那份内外兼修的独特气质。咱先把这个关键点记下,稍作休息,回来再深入下一个话题。", "prompt_audio": "test.WAV", "prompt_text": "[S1]对,这个确实最近炒得很热。[S2]对。[S1]那我们就赶紧开始今天的话题吧。[S2]咱们第一个要聊的呢是这个吉比特的这个分红盛宴嗯,就是说这个公司为什么它可以这么豪横地分红嗯。首先我们要来看一下它这个二零二五年的上半年的业绩为什么可以这么好。[S1]这个其实主要的原因呢就是因为它新上线的两款自研的游戏,嗯一个是这个问剑长生,一个是这个杖剑传说,嗯,这两款游戏表现都非常地亮眼。"}

使用format3格式组织数据能否优化这个问题

BestMt111 avatar Nov 07 '25 07:11 BestMt111

请问一下是测了7条不同的文本,有5条都出现了错误。还是上面这一条测试了7次,有5次出现了错误。

rulerman avatar Nov 07 '25 08:11 rulerman

我们测试目前v0.7模型的音色在少数情况下会遵循语义,而不是标签。 比如上述文本删除“嗯...我想想啊,”,基本上不会出现切换错误的现象。 Image 我们后续会修复这个问题,让音色完全遵循说话人标签。

rulerman avatar Nov 07 '25 09:11 rulerman

上面这个case的prompt audio以[S1]开头和[S1]结束,似乎是由于这个问题。 我将[S1][S2]对照的方式重新构造了prompt audio,缓解了说话人切换出错这个问题。

现在遇到了新的问题:我想通过lora训练来稳定音色,数据来源采用了合成数据而非真实数据。数据本身是不包含杂音的,但是训练后,推理出的音频出现了两个bug:

  1. 推理崩溃,模型开始无意义输出直到9min
  2. 开头或结尾出现奇怪音乐或鼓点类声音的概率变高。

v0.7真的是一个很棒的模型,相比于v0.5能感觉到提升了很多,但是想让他更完美一点还需要解决上面微调的问题。

BestMt111 avatar Nov 07 '25 10:11 BestMt111

Image 生成的英文音频会莫名增加“s”,图片中PDF是对话原文,json是根据音频转录的字幕,发现莫名多加了很多s,实际音频中在对应位置确实有读“s”,

sabkfd avatar Nov 07 '25 10:11 sabkfd

Image 生成的英文音频会莫名增加“s”,图片中PDF是对话原文,json是根据音频转录的字幕,发现莫名多加了很多s,实际音频中在对应位置确实有读“s”,

非常感谢你的反馈,请问方便把完整的测试样例发给我们吗(邮箱:[email protected]),我们后续会做针对性优化。 针对目前出现的这个问题,一个暂时的解决方案是,请把所有用于包裹(而不是用于缩写)的英文单引号(')删除。

rulerman avatar Nov 07 '25 11:11 rulerman

Image 生成的英文音频会莫名增加“s”,图片中PDF是对话原文,json是根据音频转录的字幕,发现莫名多加了很多s,实际音频中在对应位置确实有读“s”,

你的邮件我们收到了,非常感谢 python inference.py --use_normalize 请问生成的时候加上--use_normalize这个arg了吗,加上--use_normalize能解决大部分这种情况。

rulerman avatar Nov 11 '25 13:11 rulerman