limengtao
limengtao
模型经过lora微调后,音色一致性会比之前强。 但是在每次生成的开头,女生音色都会更加尖锐,然后到后面才会好一点,这个问题有没有什么解决办法。
相比于v0.5,说话人切换错误频率过高。测了7条,有5条都出现了错误。 以下是测试数据: {"base_path": "***", "text": "[S1]朋友们大家好呀,欢迎来到咱们的文化闲聊时间,我是你们的主持人小雅。今天啊,咱们要聊一位民国时期的女神级人物,那可是娱乐圈的一股清流啊,凭啥能在美女如云的演艺圈脱颖而出成为传奇呢。[S2]是啊,小雅说得对,这个话题很有意思。我是中文系的李教授,平时啊最爱研究这些文化名人的故事了。今天咱们就一起聊聊这位夏梦女士吧,她的人生简直就是一部活生生的电影。[S1]哇,李教授都这么说了,那咱必须得好好聊聊呀。夏梦这人啊,长得那叫一个美,还被大家叫做东方的赫本呢。那我们就直接开始吧。[S2]好,咱们先说说她的早期经历吧。夏梦打小就气质出众,六岁参加上海那个童摄影比赛就拿头奖了。嗯...我想想啊,十四岁迁居香港后,在玛利诺修院学校就开始演舞台剧了。[S1]哎说到这个,她十七岁加入长城电影公司后,艺名就叫夏梦了。主演禁婚记娘惹这些片子,一下红遍半边天。那、怎么就能这么火呢。[S2]其实啊,她不是光靠脸吃饭的。气质太独特了,清新雅致,就像从画里走出来的东方佳人。照片里她和周总理握手时,那股端庄劲儿啊。[S1]还真是啊,我看过她和毛主席的合照,举止大方,笑容温柔。难怪被称香港西施。可是光外表美就能成传奇吗。[S2]不不不,她内在更厉害。文化程度高,还能在杂志写万字长文。那时候女星读书少,她简直就是异类。演技情商都很强,和人相处特谦逊。[S1]哇,那她挺全才的嘛。呃,听说身高一米七,还爱运动对吧。篮球游泳啥的都擅长,这体质也太好了。[S2]是的是的,身体健美,思想也独立。她那本从影一年的自传,就是深度思考的结晶。可是啊,最难得的还是她那份低调劲儿。[S1]确实。哎,娱乐圈那么乱,她咋就能零绯闻呢。二十一岁嫁给普通商人林葆诚,婚后还继续拼事业。这婚姻有啥秘诀啊。[S2]嗯...这个啊,就是咱们要总结的了。夏梦早期经历的核心在于,美貌只是敲门砖,真正让她闪耀的是那份内外兼修的独特气质。咱先把这个关键点记下,稍作休息,回来再深入下一个话题。", "prompt_audio": "test.WAV", "prompt_text": "[S1]对,这个确实最近炒得很热。[S2]对。[S1]那我们就赶紧开始今天的话题吧。[S2]咱们第一个要聊的呢是这个吉比特的这个分红盛宴嗯,就是说这个公司为什么它可以这么豪横地分红嗯。首先我们要来看一下它这个二零二五年的上半年的业绩为什么可以这么好。[S1]这个其实主要的原因呢就是因为它新上线的两款自研的游戏,嗯一个是这个问剑长生,一个是这个杖剑传说,嗯,这两款游戏表现都非常地亮眼。"} 使用format3格式组织数据能否优化这个问题
微调训练问题
非常棒的工作!! 我看到作者在问题中有回复到,使用10min数据lora训练50轮就可以在克隆音色稳定性上取得一个不错的效果。 我有两个疑问: 1. lora训练后我觉得音色还是不太稳定,请问作者的参数是怎么设置的,是默认参数吗。 2. 数据组织形式是不是最好组织为多条。