GPT-SoVITS
GPT-SoVITS copied to clipboard
【功能建议】改进推理时的文本切分策略,增强长文本的语义连贯性
首先,非常感谢开发者们的辛勤工作,GPT-SoVITS 是一个非常出色的项目!
我在使用过程中发现,当前默认的文本切分策略(例如 sentence4 模式)在处理较长的、包含复杂从句或特定语气的文本时,可能会破坏句子的语义连贯性。该策略主要依赖于标点符号(如逗号、句号、分号等)进行切分,虽然在多数情况下有效,但有时会在不适合停顿的地方强制截断,导致合成的音频听起来不自然,情感和语流被打断。
一个非常典型的例子: 原始文本: “秦plus纯电采用了创新的刀片电池,这种电池有良好的特性,针刺测试中不起火,不冒烟,有效避免了热失控。” 当前实际切分结果: “秦plus纯电采用了创新的刀片电池,这种电池有良好的特性,针刺测试中不起火,不冒烟,” “有效避免了热失控。” 问题分析: 这个切分是问题的完美体现。“有效避免了热失控” 是对前面 “不起火,不冒烟” 等一系列优良特性的直接总结和结果。这是一个非常紧密的因果逻辑链。 当前的切分方式,在“不冒烟”后的逗号处强行截断,导致音频在这里产生一个不自然的停顿。
好建议