huiguhean comments

Results 13 comments of


                                            huiguhean

关于数据集设置的一些咨询

我注意到预训练是对三个元数据集训练的，但是在代码部分，在 class traffic_dataset(Dataset): 有一个参数add_target=True，这个参数为True意味着预训练阶段会把目标城市的数据集也加入到预训练阶段，是这样吗 ![image-20241007105659825](https://github.com/user-attachments/assets/9b79aa54-943b-4b88-8035-538263d4c244)

关于数据集设置的一些咨询

关于maml训练过程， def meta_train_revise里，因为每个task的内循环训练更新之后，都有self.model = deepcopy(maml_model)，再用qry累计计算得到loss，但是最后对self.model参数进行更新的self.model是复制于最后一个task内循环更新之后的，也就是task_num设置再怎么大，self.model也只是取自最后一个task内循环更新之后的loss，初始模型经历过内循环更新之后进行更新，这样没办法对初始模型init_model进行更新。因为maml是要找一个最佳初始模型的参数，而不是像简单的迁移学习一样，找进行更新之后的参数。有没有什么办法，能直接对init_model得到loss，从而更新初始参数，最终找到一个最佳的初始参数，而不是，内循环5步之后，再qry得到loss，对已经更新了五步的self.nodel多更新一步，似乎对少样本没什么帮助。求指一条maml的模板，能对初始模型评价loss然后更新参数的，虽然这里也能对初始模型评价loss，评价初始参数的好赖，但是更新的不是初始模型参数，而是最后一个task的更新5步后的模型进行的更新。 T_T

关于数据集设置的一些咨询

我好像理解了，内循环跟新次数要尽量小一点，task_num可以多一点，这样，model_loss.back这里计算的是多个task的平均loss的梯度，这里的梯度按maml的道理应该是对初始模型参数更新的，但是代码只能做到对更新后的模型参数更新，但是我用在少样本上效果不理想

关于数据集设置的一些咨询

我好像理解了，内循环跟新次数要尽量小一点，task_num可以多一点，这样，model_loss.back这里计算的是多个task的平均loss的梯度，这里的梯度按maml的道理应该是对初始模型参数更新的，但是代码只能做到对更新后的模型参数更新，只能取最后一个task更新后的做近似，但是我用在少样本上效果不理想

请问如果想让整个人物动起来而不是只是面部，是否有办法实现呢？谢谢！

找到了吗？感觉实时性的话就musetalk，其他的虽然可以面部动，手部动，但是速度太慢了

一些问题和优化建议

请问一下，运行train找不到FileNotFoundError: [Errno 2] No such file or directory: 'datasets/ETTh1/scaler_in_96_out_336_rescale_True.pkl'，修改哪个文件夹

一些问题和优化建议

修改了baselines里面对应的模型数据集好了

一些问题和优化建议

伟大，无需多言！

”每个连接指定不同avatar和音色“怎么实现实时切换数字人

在app添加了 `async def switch_avatar(request): try: params = await request.json() sessionid = params.get('sessionid', 0) avatar_id = params.get('avatar_id', '') if sessionid not in nerfreals: return web.Response( content_type="application/json", text=json.dumps({ "code": -1, "msg": "会话不存在"...

动作编排若干问题

> > > 关于问题2，这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，需要自己找到使用的代码basereal.py:287-294，系统提供了HTTP API接口来触发动作切换，位于 app.py:219-239 。这个set_audiotype端点接收POST请求，包含sessionid、audiotype和reinit参数。在帧处理过程中，系统根据当前状态选择相应的动作视频，相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时，系统会使用对应audiotype的动作序列。目前是这么理解的，可以探讨下，我目前的困难点在于，脸型和动作视频的不匹配。欢迎交流 > > > > > > 感谢您的回复。我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作，我没有这样的需求。 > > 我也提到 “这个前提是需要动作视频制作为avatar，然后自定义动作json或者在原来的data/custom_config.json中自己加，”这个动作视频也是一个avatar，可以用来驱动说话，就把默认的那个avatar替换掉就可以，这个项目不管你视频内容，只要求正面的面部清晰可识别，所以其他内容都是需要自己提前做，然后按需要切换。目前想要做动作，只能做预制动作，控制面部的同时还要做动作的，目前是需要做骨骼绑定的，但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足实时性对口型做动作的有没有有表情的，musetalk只有嘴巴感觉有点局限，我看到动作编排这部分内容，文档内容有些简单，我不明白他的意思是，可以设置两个视频，一个是人物安静时候播放，另一个是人物说话的时候播放，是这个意思吗