XLearning
XLearning copied to clipboard
Tensorflow版本兼容和模型保存
目前使用XLearning测试Tensorflow分布式模型训练的场景,遇到一些问题:
- XLearning现在兼容支持的最高的Tensorflow的版本是哪个?目前example里面里提供的测试脚本在1.10的版本是测试不通过的,1.3版本可以兼容。
2.能否给出保存pb模型文件的方式,现在测试在本机可以保存pb文件的python代码,使用xlearning保存的时候就会报错。
1、TensorFlow example的示例脚本是基于1.1版本写的,xlearning仅为调度平台,原则上支持的TensorFlow版本不受限制(内部使用1.12版本没有问题) 2、pb保存模型出错需要根据作业的报错情况具体分析
@jiarunying 谢谢回复。
- 我在本地测试分布式训练模型保存的时候,如果PS和Worker不是共享存储路径的话,保存模型的时候会报错误:NotFoundError (see above for traceback): xxxx_model/1 variables/variables_temp_ae346506332a4adc801e21a63e1c3314;
- 如果PS和Worker的输出路径是用NFS共享存储的话是可以正确保存;
- Tensorflow Serving好像不支持加载分布式训练得到的模型。
这种情况建议直接使用hdfs进行存储,TensorFlow支持对hdfs文件的读取