liuxiaohan00 comments

Results 21 comments of


                                            liuxiaohan00

使用PP-DocLayout_plus-L的版面区域检测模型，发现对行间公式识别不太全

> [@liuxiaohan00](https://github.com/liuxiaohan00) 可以试试最新的精度更高的 PP-DocLayoutV2 模型 https://www.paddleocr.ai/main/version3.x/module_usage/layout_analysis.html#_4 > > 如果还不行的话，降低一下检出阈值我试了新的V2模型，发现对于行间公式，它可以识别得更多，但是相对PP-DocLayout_plus-L模型，它更容易丢掉版面区域，如下图：是否还是需要降低检出阈值，设为0.2后，会出现一些冗余的版面框，如下图，出现红色框是行内公式。

blurry mouth and awkward lip glitch at the end of sentences.

class EdgeTTS(BaseTTS): def txt_to_audio(self,msg): #voicename = "zh-CN-YunyangNeural" #man voicename = "zh-CN-XiaoxiaoNeural" #woman #voicename = "zh-CN-YunyangNeural" text = msg t = time.time() asyncio.new_event_loop().run_until_complete(self.__main(voicename,text)) print(f'-------edge tts time:{time.time()-t:.4f}s') if self.input_stream.getbuffer().nbytes= self.chunk and self.state==State.RUNNING:...

是否支持NPU？

> 可以简单实现： 1）增加TORCH_DEVICE_MODEL > > ![Image](https://github.com/user-attachments/assets/3afdb957-a6ba-4f19-ab15-d0cbfe494b19) > > ![Image](https://github.com/user-attachments/assets/e386a0c3-785f-4390-acf0-c47bd9d6efc0) > > 2）增加default_batch_sizes > > ![Image](https://github.com/user-attachments/assets/4d72b102-a7d3-4e39-b878-12d2704aa942) 相应的需要设置default_batch_sizes的点，需要修改，增加 npu > > 3）环境先安装torch cpu版本（以2.1为例，或其他版本） `pip3 install torch==2.1.0 torchvision==0.16.0 --index-url https://download.pytorch.org/whl/cpu` > >...

是否支持NPU？

> > 可以简单实现： 1）增加TORCH_DEVICE_MODEL > > ![Image](https://github.com/user-attachments/assets/3afdb957-a6ba-4f19-ab15-d0cbfe494b19) > > ![Image](https://github.com/user-attachments/assets/e386a0c3-785f-4390-acf0-c47bd9d6efc0) > > 2）增加default_batch_sizes > > ![Image](https://github.com/user-attachments/assets/4d72b102-a7d3-4e39-b878-12d2704aa942) 相应的需要设置default_batch_sizes的点，需要修改，增加 npu > > 3）环境先安装torch cpu版本（以2.1为例，或其他版本） `pip3 install torch==2.1.0 torchvision==0.16.0 --index-url https://download.pytorch.org/whl/cpu` >...

长时间运行出现问题

用的哪个模型，musetalk模型效果较好

如何做到替换音色为自己自定义的音色

> 使用fish-speech时，遇到错误： > > ![Image](https://github.com/user-attachments/assets/46b7822c-4be3-4455-b04d-3fc344619887) 这个tts是流式音频输出吗，如果是，那么现在的代码不支持流式，需要改写

运行久了线程会自动退出？while not quit_event.is_set()

如果是rtc，自动退出基本上都是因为服务和srs链接问题导致。

透明背景或抠图换背景

如果是用musetalk模型，最经济方式就是，提前准备好一个带有背景的数字人静默视频，然后用musetalk预推理得到数据使用。有一点需要说明的是，如果背景图相对视频的分辨率较大，可以将背景裁剪并resize出和视频分辨率一样的背景图片，然后换到静默视频里。

musetalk 使用报错

根据提示意思，pytorch的load函数的weights_only参数默认值，在2.6版本从False改为True了，你可以降级到2.6以下版本，或者直接修改当前版本的weights_only参数值为Flase

How to use custom TTS?

python app.py --tts gpt-sovits --TTS_SERVER http://127.0.0.1:8080 --REF_FILE ref.wav --REF_TEXT xxx --tts后面参数错了吧，按照这个来： if opt.tts == "edgetts": self.tts = EdgeTTS(opt,self) elif opt.tts == "gpt-sovits": self.tts = VoitsTTS(opt,self) elif opt.tts == "xtts": self.tts...