wowoniu
wowoniu
> 你好,请问问题解决了吗,我也遇到了同样的问题 没,现在按照不merge的方式进行推理
> 支持的哦 baichuan13B 支持qlora训练吗,我这儿报错 raise NotImplementedError
> 好像找到问题了,需要设置启动时的参数--nproc_per_node=2 你能完整训练完吗,我和你一样的训练代码跑了200步就挂了
> Please try: --attn_impl flash_attn or --infer_backend vllm --tensor_parallel_size xxx 感谢回复,改成 --infer_backend vllm --tensor_parallel_size xxx 可以了。我又遇到一个问题,我在4台A800*8的机器上进行lora微调,报显存溢出,但实际上显存分配,每张卡分配不均,有的卡不到60G。请问可以怎么解决? CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ NNODES=$TORCH_NNODES \ NPROC_PER_NODE=$TORCH_NPROC_PER_NODE \ NODE_RANK=$TORCH_NODE_RANK \ MASTER_ADDR=$TORCH_MASTER_ADDR \ MASTER_PORT=$TORCH_MASTER_PORT \ MAX_PIXELS=1003520 \...