LiveTalking 动作编排若干问题

1，ffmpeg -i xxx.mp4 -vf fps=25 -qmin 1 -q:v 1 -start_number 0 data/customvideo/image/%08d.png 这个命令中的MP4视频和制作数字人所用视频一样吗？ 2，说话的时候加动作audiotype应该设置成什么？希望得到回复，谢谢

Aug 12 '25 02:08 bupt906

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

Aug 12 '25 06:08 heyyyyou

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

Aug 12 '25 08:08 bupt906

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

Aug 12 '25 08:08 heyyyyou

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

感谢，受益匪浅。

Aug 13 '25 07:08 bupt906

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

有没有有表情的，musetalk只有嘴巴感觉有点局限，我看到动作编排这部分内容，文档内容有些简单，我不明白他的意思是，可以设置两个视频，一个是人物安静时候播放，另一个是人物说话的时候播放，是这个意思吗

Aug 20 '25 05:08 huiguhean

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

有没有有表情的，musetalk只有嘴巴感觉有点局限，我看到动作编排这部分内容，文档内容有些简单，我不明白他的意思是，可以设置两个视频，一个是人物安静时候播放，另一个是人物说话的时候播放，是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频，但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存，因为要全部加载到内存中才能热切

Aug 21 '25 01:08 heyyyyou

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

有没有有表情的，musetalk只有嘴巴感觉有点局限，我看到动作编排这部分内容，文档内容有些简单，我不明白他的意思是，可以设置两个视频，一个是人物安静时候播放，另一个是人物说话的时候播放，是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频，但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存，因为要全部加载到内存中才能热切

你好，当第一句话结束时，数字人动作突然切换到静音时候的无动作，第二句话紧跟着返回后，数字人突然产生动作，看起来非常的突兀，有没有好的解决办法呢

Sep 01 '25 01:09 2524271078

关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流

感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。

我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的

有没有有表情的，musetalk只有嘴巴感觉有点局限，我看到动作编排这部分内容，文档内容有些简单，我不明白他的意思是，可以设置两个视频，一个是人物安静时候播放，另一个是人物说话的时候播放，是这个意思吗

我是这么理解的。所谓编排动作都是在同一个面部位置的基础上做不同动作的视频，但是形象融合使用的是同一套avatar。表情这种我的想法是把不同表情的视频都制作为对应的avatar然后按照需要去切换。只是这种要想自然的切换很占内存，因为要全部加载到内存中才能热切

你好，当第一句话结束时，数字人动作突然切换到静音时候的无动作，第二句话紧跟着返回后，数字人突然产生动作，看起来非常的突兀，有没有好的解决办法呢

尝试强制保持当前动作？直到播放完完整动作且没有对话在使用默认

Sep 01 '25 08:09 heyyyyou

这个如果检测到静音状态先保持原先的状态，或者说几个语气词，比如嗯，哦之类就好了。

Sep 08 '25 04:09 wewaa