xlc-github

Results 8 comments of xlc-github

> You need to use the stable_txt2img.py file in our scripts directory. See the txt2img.py example in our readme for example arguments. hi,I have do this follow your advise.And I...

> Hi, you don't need to update the model weights. Just use the model file associated with the original repo. ok,thanks a lot

你在后端发送combine_frame里额外拼接一个mask图(人像图,人像mask图),然后前端用画布根据mask取值去画

> Hello, how can you solve it? Consider transmitting the facial video from the backend to the frontend, then performing alignment on the frontend to reduce bandwidth usage.

> 请问一下,我这边打开多个网页,然后使用不同的数字人形象,说话的时候人脸会互相变,您有遇到么? 你用的是哪种数字人,多个网页请求的是同个数字人么

> 要实现只加载一份模型,多个会话都用这个模型来做推理 这样做能实现同时聊天画面和音频不会出现卡顿么,我目前卡在这里,多个会话同时聊天的时候,发现音频画面会出现卡顿

> > Hi, have you found a way to do multiprocessing? Regards. > > 同时启动多个数字人的瓶颈在于GPU算力上,这个开源项目并不能实现高并发 但可以尝试新的编码来提升效率(数字人仅讲话时访问服务器,降低服务器压力) 这种做法与该开源项目几乎无关,仅使用了相同的推理模型 > > 前端: > > 1. 循环播放一段的头尾帧一致的静默视频 > 2. 向后端发起请求时指定数字人形象、音色、播报的文本 > > 后端:...

> > 你好,我也在测试这个方案,我目前后端传脸部数据(坐标,idx),音频,这两个数据以datachannel的形式(base64)传到前端,由前端进行贴合,以及播放音频,但是目前前端播放的音频出现卡顿,甚至带有噪音,好像这种方式做到同步很难,想请教下你以视频流的形式传到前端,如果传脸部视频的话,那些坐标数据要以哪种形式传输呢,目前的webrtc中的流式传输,和datachannel两种形式做不到很好的同步,你这边是怎么做到多并发的 > > 你后端有测试完整视频是否有杂音吗? > > ### 前后端同步做法: > 给图片标记帧序号,提供前端坐标文件的下载地址。 python代码示例: [test.txt](https://github.com/user-attachments/files/22965146/test.txt) > > """ 将图片的像素第一行设置为白色,将这条白线均分为十份 使用十位二进制法表示图片序号 黑色表示1白色表示0 """ > > ### 多并发思路 > 我并没有使用webrtc哦,webrtc更适合直播,而不适合我现在要做的一对一的对话。 实现的多并发主要依赖之前提到的第三点优化,一张4060大约能启动四个model,如果每个处理请求的workshop独占一个model显然是浪费的。 我测试四个独占model,有四个并发的情况下,model推理在整个工作流程中的耗时约占1/3(一次请求需要文本转语音、获取数字人形象、推理前处理素材、model推理、合成视频),所以让一个model为不同的workshop工作提升还是不错的,不让model有一点的空闲。 多谢提供思路,目前后端测试的音频是不带杂音的,传到前端的音频块,由于同步问题导致音频块拼接问题,出现噪音等;...