动作编排若干问题
1,ffmpeg -i xxx.mp4 -vf fps=25 -qmin 1 -q:v 1 -start_number 0 data/customvideo/image/%08d.png 这个命令中的MP4视频和制作数字人所用视频一样吗? 2,说话的时候加动作audiotype应该设置成什么? 希望得到回复,谢谢
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
感谢,受益匪浅。
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗
我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗
我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切
你好,当第一句话结束时,数字人动作突然切换到静音时候的无动作,第二句话紧跟着返回后,数字人突然产生动作,看起来非常的突兀,有没有好的解决办法呢
关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流
感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。
我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的
有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗
我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频,但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存,因为要全部加载到内存中才能热切
你好,当第一句话结束时,数字人动作突然切换到静音时候的无动作,第二句话紧跟着返回后,数字人突然产生动作,看起来非常的突兀,有没有好的解决办法呢
尝试强制保持当前动作?直到播放完完整动作且没有对话在使用默认
这个如果检测到静音状态先保持原先的状态,或者说几个语气词,比如嗯,哦之类就好了。