Results 5 comments of zhohn

理论结合测试得到的结论是不能, 60亿规模参数,根据以下公式计算: 模型参数 + 梯度参数 + 优化器参数 = 6B * 1bytes + 6GB + 2*6GB = 24GB

> 请教一下,pre_seq_len设置后,哪里会固定住原有模型的参数?

> > PRE_SEN_LEN = save_prefixencoder > > 我理解pre_seq_len不只是save_prefixencoder,pre_seq_len的用处有多个地方: 1、save_prefixencoder=model_args.pre_seq_len is not None save_prefixencoder只是一个标志位,是个bool,将来使用的地方,根据这个标志来决定是存储所有参数(全量微调)还是前缀部分参数(ptuningv2); 2、真正使用pre_seq_len的值的地方: if self.pre_seq_len is not None: for param in self.parameters(): param.requires_grad = False self.prefix_tokens = torch.arange(self.pre_seq_len).long() self.prefix_encoder...

同遇到这个问题,有解决吗?