FlagAI
FlagAI copied to clipboard
[Question]: 训练主机存在密码ssh应该怎么处理训练?
Description
以单机八卡为例 1. 查看本机ip地址 ifconfig eth0 | grep "inet " | awk '{print $2}' 2. 在hostfile里填入 [上一步得到的ip地址] slots=8 3. 确认本机可以免密登录,可用如下指令测试 ssh localhost
配置主机hostfile,本机如果不能免密登录,应该怎么处理?
Alternatives
No response
- 生成密钥 ssh-keygen -t rsa
- 进入~/.ssh里,应该就会有id_rsa和id_rsa.pub两个文件
- 在~/.ssh里,如果没有authorized_keys文件就新建一个, 然后把公钥放进去 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 重启服务器 service sshd restart
先试试这个,如果还不行,就可能是网络的原因
官方DockerFile配置ssh端口为6001 ,在配置多机多卡的时候如何修改deepspeed 的ssh 连接端口
官方DockerFile配置ssh端口为6001 ,在配置多机多卡的时候如何修改deepspeed 的ssh 连接端口
https://github.com/FlagAI-Open/FlagAI/blob/master/examples/Aquila/Aquila-chat/bmtrain_mgpu.sh#L33
我们训练是这里指定端口。可以参考
此问题已关闭,如果还有疑问,可以重新打开此问题