有支持视觉模型的计划吗

Open DESAKEY opened this issue 6 months ago • 2 comments

数字人摄像头识别物体解析人物动作的功能，应该挺有意思的

May 28 '25 02:05 DESAKEY

有 propmt 示例吗？看看文字中添加动作描述后的效果。视频最后都需要转化成文字，除非接入多模态。

May 28 '25 03:05 Dustyposa

webrtc开启摄像头通道，视频截取视频帧，没5秒截取一次，再llm里修改一下，有图片就发送图片，思路给你了，具体这么做坑就很多

Aug 05 '25 03:08 zhengyiwei1987