Zeng Lingyu
Zeng Lingyu
用mlx.launch调用倒是没有这个报错,但是又其他报错。mpirun也是正常的。都能正常加载到内存中去,共享存储也没有任何问题。就是推理有其他报错
mlx框架bug有很多
mlx.launch \ --hostfile /Volumes/long990max/hosts.json \ --backend mpi \ --mpi-arg "--mca btl tcp,self \ --mca btl_tcp_if_include 10.25.0.0/24 \ --mca oob_tcp_if_include 10.25.0.0/24 \ --mca oob_tcp_disable_family ipv6 \ --mca btl_tcp_links 2 \ --mca...
最好让脚本自己下,别用镜像源
> mlx.launch --hostfile /Volumes/long990max/hosts.json --backend mpi --mpi-arg "--mca btl tcp,self --mca btl_tcp_if_include 10.25.0.0/24 --mca oob_tcp_if_include 10.25.0.0/24 --mca oob_tcp_disable_family ipv6 --mca btl_tcp_links 2 --mca plm_base_verbose 100 --mca btl_base_verbose 100" /Volumes/long990max/pipeline_generate.py --prompt...
要注意,关闭ipv6,只用雷电网桥
> 就是exo好像不定期会加点cache文件到模型下载目录里,所以模型大小总跟镜像里不一样,大小不一样就开始间接性error file removing。 exo是分块下载到每台机器的
use headscale instead is possible?