calvinzhan

Results 8 comments of calvinzhan

> 前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md > > ``` > { > "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳", > "summary": "这件衬衫的款式非常的宽松,利落的线条可以很好的隐藏身材上的小缺点,穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳,漂亮的绳结展现出了十足的个性,配合时尚的泡泡袖型,尽显女性甜美可爱的气息。" > } > ``` @wywzxxz 这个我看到了。这个应该是finetune的方法,还是需要人工构造输入和输出。训练集数量不会太大。不知有没有直接在纯文本上进行自监督训练的方法和步骤。这样就可以利用海量的领域语料了。 我理解GLM应该是有这种训练方式,但是chatglm所做的指令微调工作是不是就得重做了?

chatllama是这么训练的,中间的那步可以借鉴来在领域语料上训练。我是想达到这样的目的,不知能否在保留chat的能力上达到? ![chatllama](https://user-images.githubusercontent.com/5028298/229353784-81dcc0c4-3649-48e8-bab5-29ca07929703.jpg)

> > 前天添加的ptuning应当符合你的需求吧 https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md > > ``` > > { > > "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳", > > "summary": "这件衬衫的款式非常的宽松,利落的线条可以很好的隐藏身材上的小缺点,穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳,漂亮的绳结展现出了十足的个性,配合时尚的泡泡袖型,尽显女性甜美可爱的气息。" > > } > > ``` > > 如果要形成公司内部的问答模型,问一些公司内部的政策文件,可以用这种模式训练吗,还是说应该有个问答的专门的训练集和训练方法? @luieswww 我也是这种需求,感觉如果靠构建上面的数据集,人工工作量貌似很大。

> 直接进行,题主的2和3点,是可以的。 @chenyiwan 不知能更具体地说明一下吗?或者给点参考的链接。多谢了

这是因为量化版会把query_key_value改掉,封装;而lora又会改回来。这样input是float16, weight是int8,不能运算。不知有人成功解救这问题的吗?

@zlht812 换了训练版本可以支持int8量化版模型了?换了f16权重,这里能说下是怎么做的吗?方便加下vx,交流下?我的是229402265

原因在于以下代码里self.weight = nn.Parameter(nn.functional.normalize(self.weight))把deepspeed stage3在parameter里生成的变量给干掉了。 第一版不做head的normalization就没问题。 ``` class NormHead(nn.Module): def __init__(self, hidden_size, vocab_size, bias=False): super().__init__() self.weight = nn.Parameter(torch.empty((vocab_size, hidden_size))) nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5)) self.first_flag = True def forward(self, hidden_states): if self.training: norm_weight =...

> 训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。 @AndrewZhe 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗? 进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧?