BertSimilarity icon indicating copy to clipboard operation
BertSimilarity copied to clipboard

训练卡在Saving checkpoints for 0 ,请问什么原因?

Open xkungfu opened this issue 4 years ago • 12 comments

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt. I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。 Top命令,也没找到python的进程。 4核cpu. ubuntu18.04. 有什么解决办法么?

xkungfu avatar Nov 06 '20 08:11 xkungfu

我也遇到这个问题了,请问你解决了吗

sixmilesroad avatar Nov 09 '20 10:11 sixmilesroad

没有解决。我无能为力了。你如果找到解决办法了麻烦分享一下,谢谢!你QQ或微信方便加一下吗?

xkungfu avatar Nov 09 '20 21:11 xkungfu

我可能知道是什么原因了,可能是和机器性能有关。需要高配机器。我是4核8G云服务器。训练完可能要好几天或者干脆无法结束。

xkungfu avatar Nov 12 '20 06:11 xkungfu

我试试,有结果告诉你

sixmilesroad avatar Nov 12 '20 07:11 sixmilesroad

我有个别的能跑的代码,没用这个,这两天我试试这个

sixmilesroad avatar Nov 12 '20 07:11 sixmilesroad

谢谢。你有高配机器的话,可以试试。

我用了另一个可以跑通,并且作者一直在线回复问题: https://github.com/yongzhuo/Keras-TextClassification

xkungfu avatar Nov 12 '20 11:11 xkungfu

试了,能跑通,代码没有问题。

sixmilesroad avatar Nov 13 '20 08:11 sixmilesroad

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt. I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。 Top命令,也没找到python的进程。 4核cpu. ubuntu18.04. 有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

Brokenwind avatar Nov 13 '20 08:11 Brokenwind

试了,能跑通,代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢?谢谢!

xkungfu avatar Nov 14 '20 04:11 xkungfu

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt. I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt. 到这就停了。 Top命令,也没找到python的进程。 4核cpu. ubuntu18.04. 有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

训练好的模型文件,是不是通用的呢,是不是只要有了这个文件就不需要再训练就可以直接使用呢。 训练好的模型文件,也需要在GPU环境下才能使用么。

xkungfu avatar Nov 14 '20 04:11 xkungfu

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt. I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt. 到这就停了。 Top命令,也没找到python的进程。 4核cpu. ubuntu18.04. 有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

训练好的模型文件,是不是通用的呢,是不是只要有了这个文件就不需要再训练就可以直接使用呢。 训练好的模型文件,也需要在GPU环境下才能使用么。

训练好的参数文件是通用的,有了训练好的参数文件可以直接使用。 训练好的参数文件CPU,GPU环境可以使用

Brokenwind avatar Nov 16 '20 04:11 Brokenwind

试了,能跑通,代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢?谢谢!

https://pan.baidu.com/s/19pR3PS8AVIPpKZAXPkHdSA 提取码:fud8

Brokenwind avatar Nov 17 '20 09:11 Brokenwind