byron

Results 16 comments of byron

我cpu版的2pass,每次返回也是始终false。现在就不知道一句话是否说完 ![Image](https://github.com/user-attachments/assets/97754e20-71db-4671-8945-7187c7b180bd)

> 要客户端主动发送,结束消息。模型才会返回`'is_final': True`吧。 网页版的客户端是实时的,不会主动发送结束消息。要满足你们的需求,需要自己定制客户端。 客户端不知道一句话是否结束了,停顿的判断是vad来判断的。请问你指的消息结束是整个服务断开吗?

> `is_final`不是用来判断句子结束的,是用来说明客户端和模型之间的交互是否结束的。 > > ![Image](https://github.com/user-attachments/assets/81d6279f-5e4a-4f4e-848c-7801699efce8) 以给出的客户端demo为例,当客户端发送`is_speaking = False`消息时,表明音频流输入结束时,模型才会发送`is_final = True`的消息。 哦哦,原来如此,我理解错了,一直认为这个是用来判断一句话结束的标识呢!感谢

通过启用不同的服务实例指定不同的--listenport,客户端用端口控制切换是最快的方法了

我用腾讯语音:python app.py --transport webrtc --model musetalk --avatar_id avator_4 --max_session 10 --tts tencent --REF_FILE 601002 点击开始也报错: DEBUG:logger:HumanPlayer Starting worker thread Exception in thread media-player: Traceback (most recent call last): File "/root/miniconda3/envs/nerfstream/lib/python3.10/threading.py",...

> 我用腾讯语音:python app.py --transport webrtc --model musetalk --avatar_id avator_4 --max_session 10 --tts tencent --REF_FILE 601002 点击开始也报错: DEBUG:logger:HumanPlayer Starting worker thread Exception in thread media-player: Traceback (most recent call last): File...

我发现5s的语音,EdgeTTS延时始终在1.5s左右,换做腾讯和豆包,基本上在一两百毫秒,但是这两个语音有致命的问题,就是会卡顿。整体上,使用edgetts从发送text到收到发声在4s~5s

我的思路是,前端通过js立即停止语音播放,然后再调用后端清空流。效果就是:声音会立即停止,视频上他的嘴还会动几下(可以接受) https://github.com/lipku/LiveTalking/issues/387#issuecomment-2874974254

> [@byronv5](https://github.com/byronv5) 哈哈,我也是通过js让video音量平滑变小,延迟3-4秒,嘴还在动,我只能说体验很差啊,依然是你说你的我说我的, 做实时演示的时候,那叫一个尴尬,后端的清空流不管用,你清空的时候,实际上这时候,流都已经读出来了,估计在进行运算合成对嘴型,这个时候很难停下来, 我的应用场景是用户需要打断然后立即说话,所以我的做法是立即停止声音然后激活ASR,而不是让声音平滑变小,否则会导致用户的声音和数字人的声音有重叠导致意想不到的结果