Facico

Results 234 comments of Facico

@greatewei @yuxuan2015 我刚才看了一下,确实是我们的锅,我们的chat.sh脚本中的“CUDA_VISIBLE_DEVICES”打成了"CUDA_VISIBLE_DEVIECES"导致没有指定确切的显卡,同时由于peft目前自带的问题会造成有一定的显存泄露的问题,可以将"CUDA_VISIBLE_DEVICES"修改正确,或者拉去我们最新的代码

@greatewei 把上面说的那个问题修改了也是这样吗

@greatewei 因为这个显存消耗是由输入长度和输出长度一起确定的,输入长度会和历史信息一起截取max_memory的长度。 因为我们用的是流式输出的方式,随着记忆长度的增加(输入长度变长),显存是会增长的。最后达到max_memory所对应的极限长度。 你可以适当减小max_memory,当达到极限长度的时候显存是能保持稳定的

@greatewei 你能提供你的显卡类型和max_memory设置的大小吗

@greatewei 就是你使用的不是我们提供的脚本?

@greatewei 使用我们的脚本把max_memory设置好了应该是不会有问题的。我也没有你现在的代码我也复现不了你的情况。

@greatewei 他这个显存变化应该是他生成长度不同造成的变化

这个我们最新版本的chat.py也有加,可以在OOM的时候释放,https://github.com/Facico/Chinese-Vicuna/blob/master/chat.py#L282。 所以你上面说的释放是指OOM之后还能继续加载程序?

哦,我终于知道你是什么意思了,你的意思是随着文本的变长,显存一直变大,但是在下一次输入还没开始的时候就一直保持的这个变大之后的显存是吧。 因为下一次输入的时候还是会占这么多显存,所以整体上来说是没啥问题的。不过可能业务需求上会有这种需求。

Did you run this script(bash prepare_llama_cpp.sh)? You can check the parameters in the script prepare_llama_cpp.sh and set them to be exact. In the script, the python code merge_lora.py will be...