FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

[Question]: 训练主机存在密码ssh应该怎么处理训练?

Open jerrylsu opened this issue 2 years ago • 2 comments

Description

以单机八卡为例 1. 查看本机ip地址 ifconfig eth0 | grep "inet " | awk '{print $2}' 2. 在hostfile里填入 [上一步得到的ip地址] slots=8 3. 确认本机可以免密登录,可用如下指令测试 ssh localhost

配置主机hostfile,本机如果不能免密登录,应该怎么处理?

Alternatives

No response

jerrylsu avatar Jun 20 '23 02:06 jerrylsu

  1. 生成密钥 ssh-keygen -t rsa
  2. 进入~/.ssh里,应该就会有id_rsa和id_rsa.pub两个文件
  3. 在~/.ssh里,如果没有authorized_keys文件就新建一个, 然后把公钥放进去 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  4. 重启服务器 service sshd restart

BAAI-OpenPlatform avatar Jun 20 '23 02:06 BAAI-OpenPlatform

先试试这个,如果还不行,就可能是网络的原因

BAAI-OpenPlatform avatar Jun 20 '23 02:06 BAAI-OpenPlatform

官方DockerFile配置ssh端口为6001 ,在配置多机多卡的时候如何修改deepspeed 的ssh 连接端口

cyhuauin avatar Jun 21 '23 06:06 cyhuauin

官方DockerFile配置ssh端口为6001 ,在配置多机多卡的时候如何修改deepspeed 的ssh 连接端口

https://github.com/FlagAI-Open/FlagAI/blob/master/examples/Aquila/Aquila-chat/bmtrain_mgpu.sh#L33

我们训练是这里指定端口。可以参考

ftgreat avatar Jun 25 '23 01:06 ftgreat

此问题已关闭,如果还有疑问,可以重新打开此问题

BAAI-OpenPlatform avatar Jul 06 '23 01:07 BAAI-OpenPlatform