Facico

Results 234 comments of Facico

@chenzk1993 我们的数据大概只有70w条左右,这个300多万应该是指的文件行数,你的10000多条数据格式是正确的吗。 我们finetune.sh提供了大概三个脚本,能提供一下你用了哪个脚本以及你的脚本参数吗(你贴的都是默认参数肯定是没问题的)

其实如果能正确加载应该问题不大,正常的json格式就可以(字典或者list套字典或者每行一个字典),可以参照我们的sample.json 看起来训练到1.33个epoch已经训练了很久了,前面的步骤也正常吗。这个loss 100多可能是从一开始就很大?(7B训练的时候一开始是1左右,13B也差不多) 1、一开始就很大的话可能是模型加载参数没加载好(如果模型参数没加载好可能随机初始化),你可以尝试一下用我们已经训练好的lora加载进去,loss是否正常 2、lr=0一般的问题可能是你当前步骤加载了一个优化器、lr_schedule参数,但这个参数的max_step比你目前的step要小,他就会不能从lr_schedule中加载正确的lr,他就会为0(如果你是从我们已有的一个checkpoint的优化器和lr_schedule加载,但是没有设置resume_from_checkpoint就可能遇到这个问题) 3、依赖、硬件的问题,这个比较难排查。比如加载8bit的时候版本不对,参数弄坏了。或者是硬件把参数计算错了(这个概率比较小)

@chenzk1993 你可以把程序里面的logging_steps调成1,每个batch(128个数据)都会记录一次变化

@chenzk1993 你这个问题应该和这个[issue相同](https://github.com/Facico/Chinese-Vicuna/issues/32),可以试试直接从huggingface拉去13B的模型,如j将--model_path 设置为decapoda-research/llama-13b-hf

因为原本只有lora_checkpoint,这个是在本地finetune之后拿的模型,当时这些模型是直接放在仓库里面下载自己放的。 后来把模型扔到huggingface上了,那还要兼顾本地的接口就变成先从远程lora_remote_checkpoint拉取到本地,再从本地加载

@googlebox007 这个问题可以参见我们[readme](https://github.com/Facico/Chinese-Vicuna#how-to-use)中的How to use的如何使用generate那一段,因为中间过程的checkpoint保存的是pytorch_model,同时不会保存adapter_config,要将训练时候的adapter_config复制过来,同时将模型名字改为adapter_model才能正常使用,我们在我们的脚本中会自动复制和修改

You can see the pytorch version in our readme, we are using 1.13.1, but the version difference will not have a big impact

@bambooqj 我觉得可能的原因是,你的pip对应安装的python环境和你使用的python环境不是一个环境。可以使用whereis python查看一下,看看用的是不是同一个环境。同时你可以检查一下你上面的warning。

但是,你上面跑的python路径是/usr/local/lib/python3.10? 这个测试不是测试有没有装上python,你要确保你跑的和你pip安装的是同一个东西。

一个月前的版本就已经支持多卡推理了