byron comments

Results 16 comments of


                                            byron

GPU版本 ws里面返回的is_final 一直是false状态

我cpu版的2pass，每次返回也是始终false。现在就不知道一句话是否说完 ![Image](https://github.com/user-attachments/assets/97754e20-71db-4671-8945-7187c7b180bd)

GPU版本 ws里面返回的is_final 一直是false状态

> 要客户端主动发送，结束消息。模型才会返回`'is_final': True`吧。网页版的客户端是实时的，不会主动发送结束消息。要满足你们的需求，需要自己定制客户端。客户端不知道一句话是否结束了，停顿的判断是vad来判断的。请问你指的消息结束是整个服务断开吗？

GPU版本 ws里面返回的is_final 一直是false状态

> `is_final`不是用来判断句子结束的，是用来说明客户端和模型之间的交互是否结束的。 > > ![Image](https://github.com/user-attachments/assets/81d6279f-5e4a-4f4e-848c-7801699efce8) 以给出的客户端demo为例，当客户端发送`is_speaking = False`消息时，表明音频流输入结束时，模型才会发送`is_final = True`的消息。哦哦，原来如此，我理解错了，一直认为这个是用来判断一句话结束的标识呢！感谢

我想这个如果能在进行中，切换角色就好了，这样可以适用更多场景

通过启用不同的服务实例指定不同的--listenport，客户端用端口控制切换是最快的方法了

How to use custom TTS?

我用腾讯语音：python app.py --transport webrtc --model musetalk --avatar_id avator_4 --max_session 10 --tts tencent --REF_FILE 601002 点击开始也报错： DEBUG:logger:HumanPlayer Starting worker thread Exception in thread media-player: Traceback (most recent call last): File "/root/miniconda3/envs/nerfstream/lib/python3.10/threading.py",...

How to use custom TTS?

> 我用腾讯语音：python app.py --transport webrtc --model musetalk --avatar_id avator_4 --max_session 10 --tts tencent --REF_FILE 601002 点击开始也报错： DEBUG:logger:HumanPlayer Starting worker thread Exception in thread media-player: Traceback (most recent call last): File...

4秒等待时间正常吗

我发现5s的语音，EdgeTTS延时始终在1.5s左右，换做腾讯和豆包，基本上在一两百毫秒，但是这两个语音有致命的问题，就是会卡顿。整体上，使用edgetts从发送text到收到发声在4s~5s

打断能力太弱了，响应最快3秒，最慢更多，没法直接用在对语音有实时性很高追求的项目上

我的思路是，前端通过js立即停止语音播放，然后再调用后端清空流。效果就是：声音会立即停止，视频上他的嘴还会动几下（可以接受） https://github.com/lipku/LiveTalking/issues/387#issuecomment-2874974254

打断能力太弱了，响应最快3秒，最慢更多，没法直接用在对语音有实时性很高追求的项目上

> [@byronv5](https://github.com/byronv5) 哈哈，我也是通过js让video音量平滑变小，延迟3-4秒，嘴还在动，我只能说体验很差啊，依然是你说你的我说我的，做实时演示的时候，那叫一个尴尬，后端的清空流不管用，你清空的时候，实际上这时候，流都已经读出来了，估计在进行运算合成对嘴型，这个时候很难停下来，我的应用场景是用户需要打断然后立即说话，所以我的做法是立即停止声音然后激活ASR，而不是让声音平滑变小，否则会导致用户的声音和数字人的声音有重叠导致意想不到的结果

请教下，如何同时启动多个不同的数字人，然后每个数字人都对应的是单独的音色，并且都有独立的语音交互。

用不同的端口启呗