huiguhean

Results 13 comments of huiguhean

我注意到预训练是对三个元数据集训练的,但是在代码部分,在 class traffic_dataset(Dataset): 有一个参数add_target=True,这个参数为True意味着预训练阶段会把目标城市的数据集也加入到预训练阶段,是这样吗 ![image-20241007105659825](https://github.com/user-attachments/assets/9b79aa54-943b-4b88-8035-538263d4c244)

关于maml训练过程, def meta_train_revise里,因为每个task的内循环训练更新之后,都有self.model = deepcopy(maml_model),再用qry累计计算得到loss,但是最后对self.model参数进行更新的self.model是复制于最后一个task内循环更新之后的,也就是task_num设置再怎么大,self.model也只是取自最后一个task内循环更新之后的loss,初始模型经历过内循环更新之后进行更新,这样没办法对初始模型init_model进行更新。因为maml是要找一个最佳初始模型的参数,而不是像简单的迁移学习一样,找进行更新之后的参数。有没有什么办法,能直接对init_model得到loss,从而更新初始参数,最终找到一个最佳的初始参数,而不是,内循环5步之后,再qry得到loss,对已经更新了五步的self.nodel多更新一步,似乎对少样本没什么帮助。求指一条maml的模板,能对初始模型评价loss然后更新参数的,虽然这里也能对初始模型评价loss,评价初始参数的好赖,但是更新的不是初始模型参数,而是最后一个task的更新5步后的模型进行的更新。 T_T

我好像理解了,内循环跟新次数要尽量小一点,task_num可以多一点,这样,model_loss.back这里计算的是多个task的平均loss的梯度,这里的梯度按maml的道理应该是对初始模型参数更新的,但是代码只能做到对更新后的模型参数更新,但是我用在少样本上效果不理想

我好像理解了,内循环跟新次数要尽量小一点,task_num可以多一点,这样,model_loss.back这里计算的是多个task的平均loss的梯度,这里的梯度按maml的道理应该是对初始模型参数更新的,但是代码只能做到对更新后的模型参数更新,只能取最后一个task更新后的做近似,但是我用在少样本上效果不理想

找到了吗?感觉实时性的话就musetalk,其他的虽然可以面部动,手部动,但是速度太慢了

请问一下,运行train找不到FileNotFoundError: [Errno 2] No such file or directory: 'datasets/ETTh1/scaler_in_96_out_336_rescale_True.pkl',修改哪个文件夹

修改了baselines里面对应的模型数据集好了

伟大,无需多言!

在app添加了 `async def switch_avatar(request): try: params = await request.json() sessionid = params.get('sessionid', 0) avatar_id = params.get('avatar_id', '') if sessionid not in nerfreals: return web.Response( content_type="application/json", text=json.dumps({ "code": -1, "msg": "会话不存在"...

> > > 关于问题2,这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,需要自己找到使用的代码basereal.py:287-294,系统提供了HTTP API接口来触发动作切换,位于 app.py:219-239 。这个set_audiotype端点接收POST请求,包含sessionid、audiotype和reinit参数。在帧处理过程中,系统根据当前状态选择相应的动作视频,相关逻辑位于 basereal.py:328-348 。当检测到静音状态且存在自定义视频时,系统会使用对应audiotype的动作序列。 目前是这么理解的,可以探讨下,我目前的困难点在于,脸型和动作视频的不匹配。欢迎交流 > > > > > > 感谢您的回复。 我目前是想在说话的时候有动作。目前在代码中没看到相关处理。basereal.py:328-348只是在禁音时候的动作,我没有这样的需求。 > > 我也提到 “这个前提是需要动作视频制作为avatar,然后自定义动作json或者在原来的data/custom_config.json中自己加,”这个动作视频也是一个avatar,可以用来驱动说话,就把默认的那个avatar替换掉就可以,这个项目不管你视频内容,只要求正面的面部清晰可识别,所以其他内容都是需要自己提前做,然后按需要切换。目前想要做动作,只能做预制动作,控制面部的同时还要做动作的,目前是需要做骨骼绑定的,但是那又成了3d方向的内容。至少目前开源的数字人还没有看到同时满足 实时性 对口型 做动作的 有没有有表情的,musetalk只有嘴巴感觉有点局限,我看到动作编排这部分内容,文档内容有些简单,我不明白他的意思是,可以设置两个视频,一个是人物安静时候播放,另一个是人物说话的时候播放,是这个意思吗