Shay Duane

Results 8 comments of Shay Duane

或者可以这么写吗,还有仓库名不是改成了gpt_academic,上面克隆仓库的url是不是也得改一下

@Tongjilibo 目前来看时因为官方的量化方式和huggingface load_in_8bit的量化方式不同,如果采用官方的量化时,全精度模型的linear层会被替换为新的linear量化层,这个时候用huggingface提供的lora层对官方量化的liear层进行替换时,是无法识别的。 具体来说,加载官方的8bit模型时,‘query_key_value’这个层会被替换为‘QuantizedLinear’,这个时候如果再用hugginface提供的lora将这个层替换为lora层时,huggingface无法将这个层识别为量化层,会将它替换为常规的linear层,并且将QuantizedLinear经过量化的权重数据赋值给这个新的层,这个时候前向传播的时候到了lora层,就会报错,因为没法用量化的权重数据和输入的浮点数进行运算。peft库lora源码的660行左右。输入x和self.weight的类型不同 ``` def forward(self, x: torch.Tensor): previous_dtype = x.dtype if self.active_adapter not in self.lora_A.keys(): return F.linear(x, transpose(self.weight, self.fan_in_fan_out), bias=self.bias) if self.disable_adapters: if self.r[self.active_adapter] > 0 and self.merged:...

@EricChLee 那个项目是我fork的,不用服务器可以直接一键部署,也可以部署在服务器上,国内服务器的话准备好代理和key,最简单的部署还是docker ,Google一下docker 官网,按照文档安装就几行命令,然后项目里readme 往下拉有docker部署的方案,docker run的时候填上你的代理和key还有访问密码啥的,直接运行就行,最后打开浏览器ip 加端口就可以访问了