LiveTalking icon indicating copy to clipboard operation
LiveTalking copied to clipboard

动作编排若干问题

Open bupt906 opened this issue 4 months ago • 9 comments

1,ffmpeg -i xxx.mp4 -vf fps=25 -qmin 1 -q:v 1 -start_number 0 data/customvideo/image/%08d.png 这个命令中的MP4视频和制作数字人所用视频一样吗? 2,说话的时候加动作audiotype应该设置成什么? 希望得到回复,谢谢

bupt906 avatar Aug 12 '25 02:08 bupt906

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

heyyyyou avatar Aug 12 '25 06:08 heyyyyou

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

bupt906 avatar Aug 12 '25 08:08 bupt906

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

heyyyyou avatar Aug 12 '25 08:08 heyyyyou

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

感谢,受益匪浅。

bupt906 avatar Aug 13 '25 07:08 bupt906

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗

huiguhean avatar Aug 20 '25 05:08 huiguhean

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切

heyyyyou avatar Aug 21 '25 01:08 heyyyyou

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切

你好,当第一句话结束时,数字人动作突然切换到静音时候的无动作,第二句话紧跟着返回后,数字人突然产生动作,看起来非常的突兀,有没有好的解决办法呢

2524271078 avatar Sep 01 '25 01:09 2524271078

关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流

感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的

有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切

你好,当第一句话结束时,数字人动作突然切换到静音时候的无动作,第二句话紧跟着返回后,数字人突然产生动作,看起来非常的突兀,有没有好的解决办法呢

尝试强制保持当前动作?直到播放完完整动作且没有对话在使用默认

heyyyyou avatar Sep 01 '25 08:09 heyyyyou

这个如果检测到静音状态先保持原先的状态,或者说几个语气词,比如嗯,哦之类就好了。

wewaa avatar Sep 08 '25 04:09 wewaa