wangguanqun
Results
4
comments of
wangguanqun
再次确认一下,是否修改了paddlerec的代码,比如说在组网的embedding中增加了padding_idx参数或者修改了数据处理脚本中的padding值。
多机启动的时候,每台机器都应该有对应的worker和server端日志,可以通过查看机器日志来确定是哪台机器的问题,由于多台机器需要做一些同步通信,有可能是某台机器的问题导致训练卡住。
server端的日志呢?
GLOO设置为False(True也一样的问题) 这个GLOO的配置是如何设置的呢?