thewintersun

Results 35 comments of thewintersun

首先ps的服务器和worker的服务器网络端口通吗? 然后每个节点都正常启动了吗? 启动了之后大概要等半分钟的。

要使用Tedlium 的数据集,一次性读入一个batch_size为64的数据,需要改动的代码会比较大。 大致过程如下: 1. 在读取数据的时候,根据batchsize的大小,处理多个wav文件, 进行mfcc转换得到特征向量,将特征向量组合成矩阵。 2. 修改网络结构,在网络进行计算的时候可以多维矩阵的计算; 不过修改的量比较大,几句话也说不清楚,可以参考这个: https://github.com/thewintersun/asrtrain

字符串语法错误,你自己看看命令里有什么格式问题的原因吧。

不可以, 单机多GPU的例子,tensorflow的例子里,有个cifar的demo里面已经写了,你找找看看。

应该说所有训练的需要更新的,都是和step一样的,都是各个节点共享的, 但是因为异步,不一定共享的那么及时。

说明第一个ps节点和第二个worker节点因为说明原因没起来。

> 这个问题真是太恶心了,节点之间无法通信,有谁知道啥原因吗 机器之间端口通吗,有没有端口被之前的程序占用,先检查一下,或者不同机器上跑的模型结构是不是保证一样的了?

那不应该啊,难道是新版本的tf,老版本的 不好使了?

你们公司的服务器端口限制了吧 ------------------ 原始邮件 ------------------ 发件人: "JiayunjieJYJ"; 发送时间: 2019年7月3日(星期三) 中午11:52 收件人: "thewintersun/distributeTensorflowExample"; 抄送: "ShowTime"; "Comment"; 主题: Re: [thewintersun/distributeTensorflowExample] 一直是waiting for response (#11) tf是1.10和1.12的 试过在自己电脑上可以用,但是在公司的服务器(同一个机器)上就一直卡在 CreateSession still waiting for response from worker:...

这个我也不知道了 ------------------ 原始邮件 ------------------ 发件人: "JiayunjieJYJ"; 发送时间: 2019年7月3日(星期三) 中午11:57 收件人: "thewintersun/distributeTensorflowExample"; 抄送: "ShowTime"; "Comment"; 主题: Re: [thewintersun/distributeTensorflowExample] 一直是waiting for response (#11) 也有可能吧 我一会试试 另一个问题 我在自己电脑上是可以训练的,但是训练结束后会报个错: step: 996000, weight: 2.002096, biase:...