dls-example
dls-example copied to clipboard
Introduction of usage deep learning service of huawei cloud
### 基本信息 - Python版本: 3.6 - MoXing版本:(未使用则不填写) - 浏览器:Chrome ### 问题描述 / 重现步骤 在保存训练模型时, TensorBoard数据文件可以保存,但是ModelCheckpoint数据文件无法保存,另外参考文档https://bbs.huaweicloud.com/forum/thread-11660-1-1.html中有提到 ,“由于cp_callback、tb_callback不能直接写入,...”, 求解惑。 #### 作业基本信息 - 相关作业类型: - 作业ID: - 引擎类型: TensorFlow - 运行参数: - 计算节点个数:1...
### 基本信息 - Python版本: ( 3.6) - MoXing版本:(未使用则不填写) - 浏览器:chrome ### 问题描述 / 重现步骤 使用num_gpus = mox.get_flag('num_gpus'),出现错误 (简单描述问题信息,如果是bug,请描述重现步骤) #### 作业基本信息 - 相关作业类型: - 作业ID: - 引擎类型: (TensorFlow) - 运行参数: -...
### 基本信息 - Python版本: (2.7 / 3.6) - MoXing版本:(1.8.2) - 浏览器:Chrome ### 问题描述 / 重现步骤 正常启动程序,训练ResNet50模型(300M左右模型文件),但是运行了多个epoch后突然显示以下信息(见Log),任务失败。原因是Unable to connect to endpoint,可能是OBS连接不稳定所致。 (简单描述问题信息,如果是bug,请描述重现步骤) #### 作业基本信息 - 相关作业类型: - 作业ID: resnet-42586680-10 - 引擎类型:...