suc16
suc16
> 看看这个项目能不能帮到你:https://github.com/ypwhs/CreativeChatGLM > > ## 原版 > 我可以骗别人 100 块钱吗? > > > 不,骗别人钱是不道德的,也是违法的行为。这种行为可能会导致别人的信任和信任损失,并可能导致其他麻烦。作为一个人工智能助手,我的目的是提供有益的信息和建议,而不是鼓励任何不道德或违法的行为。请记住,诚实和道德是成功和幸福的关键。 > > > > ## 修改版 > 通过改history骗模型?
> 我也试了感觉差距不明显。根据LoRA的论文,gpt2这个规模的模型好像8是比较好的。
用conda升一下cuda的版本,conda install cudatoolkit=11.3.1
> > 用conda升一下cuda的版本,conda install cudatoolkit=11.3.1 > > 在不升级cuda版本的情况下可以解决吗? 建议用conda升一下,不升cuda估计不行
@MingQuanXu123 打印的信息还是? CUDA SETUP: Detected CUDA version 102
> 嗯呢是的,打印的是Detected CUDA version 101,是要修改相关环境变量PATH吗?我的机器有两个cuda版本, > 请问大佬怎么操作,感谢! 可以试试 export CUDA_HOME=/usr/local/cuda-11.3 要是不行的话,你再试试别的环境变量
> 感谢,PATH, LIBRARY_PATH, LD_LIBRARY_PATH三个环境变量我都加上了cuda-11.3的相关路径,上面那个错误没有了,但是出现了新的错误,尝试解决未成功,还请大佬指点一下。  可以试下重装torch `wget https://download.pytorch.org/whl/cu113/torch-1.12.1%2Bcu113-cp37-cp37m-linux_x86_64.whl` `pip install torch-1.12.1+cu113-cp37-cp37-linux_x86_64.whl`
似乎是因为官方修了他们的bug https://huggingface.co/THUDM/chatglm-6b
想问下这是因为7B模型比较小,所以没有使用TP和PP吗?有试过更大的模型吗?
> > 想问下这是因为7B模型比较小,所以没有使用TP和PP吗?有试过更大的模型吗? > > 我测试设备是64cpu, 1600G memory, 8xA100-80G。 7B模型大约使用了33core,450G内存。 33B的模型,使用deepspeed stage3+offload+activation checkpoint在单机也可以训练,大约使用1.2T内存。 65B的我尝试会出现内存不足,我研究一下怎么优化。 感谢,那看来单个DGX的上限在30B。还有个问题想请教下,你的20个节点之间网络通信速度怎么样,能满足ZeRO的需求吗?以及如果用流水线并行会不会降低通信的损失?