h123fire
h123fire
PPU上的环境必须使用指定的支持PPU的才可以
token计算方式: 单帧:(h*w)/(28*28)/4/2,按照论文中说的video 最大token 24576,那么就是24576 = (448*448)/(28*28)/4/2*768对吧
是的我和你一样,这种情况在不使用fa加速时候有效,但是开启了fa后 loss一直是0,目前是在PPU机器上
也是支持最新模型的么?与目前的LLamafactory是同步的对吧
I had the same problem using fsdp qwen2.5-vl full DPO