niexufei

Results 6 comments of niexufei

我的也是这样,基本上原有的知识都遗忘了; 另外,你训练的PRE_SEN_LEN,学习率设置的多少?训练了多少步?loss最终下降到多少?

> 我训练出来也是4.0左右,这个值是不是有点高啊,我感觉应该下降到0.XXX是不是才比较合理? 训完之后,除了服装的问题,其他的问题都回答不了了。。 因为我的硬件不行,我量化到了4位,不知道跟这个是否有关系? 另外PRE_SEN_LEN 这个长度是不是input的最大长度,如果超过这个,input就会被截断?不知道理解的是否正确?

> PRE_SEN_LEN = save_prefixencoder 我理解pre_seq_len不只是save_prefixencoder,pre_seq_len的用处有多个地方: 1、save_prefixencoder=model_args.pre_seq_len is not None save_prefixencoder只是一个标志位,是个bool,将来使用的地方,根据这个标志来决定是存储所有参数(全量微调)还是前缀部分参数(ptuningv2); 2、真正使用pre_seq_len的值的地方: if self.pre_seq_len is not None: for param in self.parameters(): param.requires_grad = False self.prefix_tokens = torch.arange(self.pre_seq_len).long() self.prefix_encoder = PrefixEncoder(config) self.dropout...

> 我是菜鸟,看各位大神都说得很高深.问了一下claude。差不多就几个意思,1、需要更大的数据集。2、数据太少。3、数据精度不够。4、调教方法有问题。。。。。。感觉好有道理,和没说一样!!!!! 哈哈,使用这个p tuning v2精调方法,加上广告数据,究竟有没有人调出来,既能回答广告数据,又不遗忘老的知识呢?有人调出来了吗?这个问题帖子人气高,希望有调试出来的上来吱一声~~

> > 请教一下,pre_seq_len设置后,哪里会固定住原有模型的参数? 在chatglm-6b/modeling_chatglm.py中,如下代码: ![image](https://github.com/THUDM/ChatGLM-6B/assets/17903509/8b2f1c63-b6f2-4367-a465-08417c0a7a3d)

> the `.build` method will return original object, so change `os.path.join` to `os.path.join.build()`, similarly others, will fix it , ref [LazyAttr](https://github.com/open-mmlab/mmengine/blob/f79111ecc0eea9fbb1b7d1361a79f7062ca1ac10/mmengine/config/lazy.py#L135) it works, thank you