mynewstart
mynewstart
How to solve it, same error
same problem, how to split-load the checkpoint using the meta device when using deepspped.init_inference?
> 在chatglm的量化时,遇到了activation outliers问题 > > 因此chatglm-int8的做法是,只对模型参数进行量化,对activation value(可以理解为中间计算)仍然使用fp16精度 > > 这样一来,确实可以节省显存,但推理速度会降低 如果中间结果使用fp16精度的话,推理速度不应该和之前fp16差不多吗?
我想问下这个代码是把数据一次性加载进内存了,如果数据量很大1.4T tokens大概5T左右的数据量,是不是内存放不下呀。
同问,以及为什么没直接使用BBPE进行训练,将2000万文本全部转为Byte再做BPE?
> > 速度慢应该是正常的,现在是采用混合精度来实现。主要目的是省显存。内存不够,试试调整一下swap区,看看能不能行。 > > @jameswu2014 非常感谢,这样我就明白了。后续有没有计划直接int8计算,或者其他的加速方案比如fastertransformer? 请问比较慢的原因是因为模型中间计算还是用的fp16寸的,只是模型参数变为int8了是吗?以及中间结果用fp16存的话,为何不能和量化前的模型速度差不多,主要是慢在哪个地方了? 慢在了int8->fp16,反量化。后续我们会迭代,请持续关注,谢谢。
> 就没用到int8计算。这里量化只是压缩了参数的存储大小,计算还是用fp16/fp32。现在大部分加速库,比如LLM.int8() ,都是基于tensor core。P40的int8加速是使用DP4A指令,跟tensor core的指令体系完全不同,估计未来这些加速库对pascal gpu的支持也够呛。还是趁早换20系之后的卡吧。。。 @shesung 求大佬再解释下, 想现在的A100是支持int8计算吗?是因为加速库的指令系统和A100支持的不同吗?
@shesung 感谢大佬回答! 我之前使用AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", load_in_8bit=True)在A100上inference模型为什么感觉没有加速,反而还更慢了,这是什么原因呀?
> I have faced hang issues after 1:30 hours training time wiht ft and zero3 same question
同问,预训练的时候需要加prompt吗,比如please translate English to Chinese