Open-LLM-VTuber icon indicating copy to clipboard operation
Open-LLM-VTuber copied to clipboard

避免出现过短语句的TTS请求

Open fastfading opened this issue 8 months ago • 3 comments

2025-04-08 21:23:03 - INFO - main - Backend payload: {'text': '哦,', 'temperature': 0.7, 'top_p': 0.95, 'top_k': 50, 'max_tokens': 2048, 'stream': False, 'name': 'jok'} 2025-04-08 21:23:03 - INFO - main - Queued request for input: '好吧,我可以给你展示一些。...'. Queue size: 1 2025-04-08 21:23:03 - INFO - main - Queued request for input: '你想看我的表情吗?...'. Queue size: 2 2025-04-08 21:23:03 - INFO - main - Queued request for input: '首先,悲伤的表情。...'. Queue size: 3 2025-04-08 21:23:03 - INFO - main - Queued request for input: '然后,恐惧的表情。...'. Queue size: 4 2025-04-08 21:23:03 - INFO - main - Queued request for input: '难过的表情?...'. Queue size: 5 2025-04-08 21:23:03 - INFO - main - Queued request for input: '这个很简单。...'. Queue size: 6 2025-04-08 21:23:03 - INFO - main - Queued request for input: '愤怒的表情?...'. Queue size: 7 2025-04-08 21:23:03 - INFO - main - Queued request for input: '惊讶的表情?...'. Queue size: 8 2025-04-08 21:23:03 - INFO - main - Queued request for input: '哈!...'. Queue size: 9 2025-04-08 21:23:03 - INFO - main - Queued request for input: '这个我最擅长了。...'. Queue size: 10 2025-04-08 21:23:03 - INFO - main - Queued request for input: '哦,真意外!...'. Queue size: 11 2025-04-08 21:23:03 - INFO - main - Queued request for input: '最后,中性的表情。...'. Queue size: 12 2025-04-08 21:23:03 - INFO - main - Queued request for input: '你满意了吗?...'. Queue size: 13

TTS 生成的时候总会出现这种情况,一开始发一个很小的短语,如上, "哦" , 这种短的文字生成的语音效果并不好. 语音合成 的效率也不高 如何让TTS进行断句,避免发这种很短的文字? 把这一段和后面文字合并起来再发送。 这里能否优化一下?

另外多段语音之间的几乎没有间隔,两段语音之间的衔接过于紧凑. 这个能不能 优化一下

fastfading avatar Apr 08 '25 13:04 fastfading

这种很短的句子是故意设计的,目的是降低用户听到第一句话的延迟,可以关。

前往 conf.yaml 文件下的 agent_settings 下的 basic_memory_agent,找到 faster_first_response 选项,将其设置成 false 即可。

话说你用的是什么 tts?

t41372 avatar Apr 08 '25 22:04 t41372

sparktts mac m4 上效果很好。 速度很快。 使用很方便, 不用像gptsovits 那样训练数据,或者找人家训练好的, 很麻烦。

另外多段语音之间的几乎没有间隔,两段语音之间的衔接过于紧凑. 这个能不能 优化一下

fastfading avatar Apr 09 '25 01:04 fastfading

sparktts mac m4 上效果很好。 速度很快。 使用很方便, 不用像gptsovits 那样训练数据,或者找人家训练好的, 很麻烦。

另外多段语音之间的几乎没有间隔,两段语音之间的衔接过于紧凑. 这个能不能 优化一下

谢谢你的建议,未来的更新会允许用户在设置配置一个 sleep 的时间范围(如 0.1s~0.5s 随机)

ylxmf2005 avatar Apr 11 '25 04:04 ylxmf2005