LiveTalking
LiveTalking copied to clipboard
有支持视觉模型的计划吗
数字人摄像头识别物体解析人物动作的功能,应该挺有意思的
有 propmt 示例吗?看看文字中添加动作描述后的效果。 视频最后都需要转化成文字,除非接入多模态。
webrtc开启摄像头通道,视频截取视频帧,没5秒截取一次,再llm里修改一下,有图片就发送图片 ,思路给你了,具体这么做坑就很多