tfbert
tfbert copied to clipboard
多卡会报错
使用楼主代码运行,多卡会报错,tf.split 分发数据出错
使用楼主代码运行,多卡会报错,tf.split 分发数据出错
请问下是哪个代码呢?我这边排查下
使用楼主代码运行,多卡会报错,tf.split 分发数据出错
请问下是哪个代码呢?我这边排查下
tf.split代码只有几处,就在数据分发那里
使用楼主代码运行,多卡会报错,tf.split 分发数据出错
请问下是哪个代码呢?我这边排查下
tf.split代码只有几处,就在数据分发那里
你好,我测试了一下,双卡三卡卡都是可以跑的,请问你报的什么错,能截图吗?
你好,这是截图,我是双卡训练,split分发数据有问题,应该是最后一个step分发的数据不平均导致的
你好,我已经解决了这个问题,就是最后一个step不满batch_size的话可能会出问题,比如batch_size恰好不是偶数的话,split到两个device会出错,解决的方法也很简单,把这里改成True就行了。不过我个人认为数据分发的逻辑还是有些问题的,test阶段不应该把数据分发到多卡上,而是一张卡做test,其他卡不做任何操作。 @huanghuidmml 大佬你觉得呢?