Aris_zyh
Aris_zyh
测试这个run.sh的时候用的是四张T4,所以是因为硬件资源不够吗?
> 我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的 main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
> > > 我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的 > > > > > > main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了 > > 请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 > > accelerate launch --config_file...
Hi @Adamdad, I ran: ```python PYTHONPATH="$PWD" python simlarity/get_rep.py ./configs/compute_sim/resnet50_imagenet.py --out ./Feature/ ``` but it raised error: ```python FileNotFoundError: [Errno 2] No such file or directory: 'data/imagenet/meta/val.txt' and FileNotFoundError: ImageNet: [Errno...
Err...the question is, because I use H800(sm_90), I can't use cuda unless I update my PyTorch to 2.0.0+. But if I did, there will be a compatibility problem between my...