liuxiaohan00

Results 21 comments of liuxiaohan00

> [@liuxiaohan00](https://github.com/liuxiaohan00) 可以试试最新的精度更高的 PP-DocLayoutV2 模型 https://www.paddleocr.ai/main/version3.x/module_usage/layout_analysis.html#_4 > > 如果还不行的话,降低一下检出阈值 我试了新的V2模型,发现对于行间公式,它可以识别得更多,但是相对PP-DocLayout_plus-L模型,它更容易丢掉版面区域,如下图: 是否还是需要降低检出阈值,设为0.2后,会出现一些冗余的版面框,如下图,出现红色框是行内公式。

class EdgeTTS(BaseTTS): def txt_to_audio(self,msg): #voicename = "zh-CN-YunyangNeural" #man voicename = "zh-CN-XiaoxiaoNeural" #woman #voicename = "zh-CN-YunyangNeural" text = msg t = time.time() asyncio.new_event_loop().run_until_complete(self.__main(voicename,text)) print(f'-------edge tts time:{time.time()-t:.4f}s') if self.input_stream.getbuffer().nbytes= self.chunk and self.state==State.RUNNING:...

> 可以简单实现: 1)增加TORCH_DEVICE_MODEL > > ![Image](https://github.com/user-attachments/assets/3afdb957-a6ba-4f19-ab15-d0cbfe494b19) > > ![Image](https://github.com/user-attachments/assets/e386a0c3-785f-4390-acf0-c47bd9d6efc0) > > 2)增加default_batch_sizes > > ![Image](https://github.com/user-attachments/assets/4d72b102-a7d3-4e39-b878-12d2704aa942) 相应的需要设置default_batch_sizes的点,需要修改,增加 npu > > 3)环境 先安装torch cpu版本(以2.1为例,或其他版本) `pip3 install torch==2.1.0 torchvision==0.16.0 --index-url https://download.pytorch.org/whl/cpu` > >...

> > 可以简单实现: 1)增加TORCH_DEVICE_MODEL > > ![Image](https://github.com/user-attachments/assets/3afdb957-a6ba-4f19-ab15-d0cbfe494b19) > > ![Image](https://github.com/user-attachments/assets/e386a0c3-785f-4390-acf0-c47bd9d6efc0) > > 2)增加default_batch_sizes > > ![Image](https://github.com/user-attachments/assets/4d72b102-a7d3-4e39-b878-12d2704aa942) 相应的需要设置default_batch_sizes的点,需要修改,增加 npu > > 3)环境 先安装torch cpu版本(以2.1为例,或其他版本) `pip3 install torch==2.1.0 torchvision==0.16.0 --index-url https://download.pytorch.org/whl/cpu` >...

用的哪个模型,musetalk模型效果较好

> 使用fish-speech时,遇到错误: > > ![Image](https://github.com/user-attachments/assets/46b7822c-4be3-4455-b04d-3fc344619887) 这个tts是流式音频输出吗,如果是,那么现在的代码不支持流式,需要改写

如果是rtc,自动退出基本上都是因为服务和srs链接问题导致。

如果是用musetalk模型,最经济方式就是,提前准备好一个带有背景的数字人静默视频,然后用musetalk预推理得到数据使用。有一点需要说明的是,如果背景图相对视频的分辨率较大,可以将背景裁剪并resize出和视频分辨率一样的背景图片,然后换到静默视频里。

根据提示意思,pytorch的load函数的weights_only参数默认值,在2.6版本从False改为True了,你可以降级到2.6以下版本,或者直接修改当前版本的weights_only参数值为Flase

python app.py --tts gpt-sovits --TTS_SERVER http://127.0.0.1:8080 --REF_FILE ref.wav --REF_TEXT xxx --tts后面参数错了吧,按照这个来: if opt.tts == "edgetts": self.tts = EdgeTTS(opt,self) elif opt.tts == "gpt-sovits": self.tts = VoitsTTS(opt,self) elif opt.tts == "xtts": self.tts...