苏剑林(Jianlin Su)
苏剑林(Jianlin Su)
https://github.com/bojone/attention/issues/2
我的意思也就是说合理就行,不一定拘泥于形式。何况我觉得,我这种形式不只是合理,而是完全等价于原来的形式。在https://github.com/bojone/attention/issues/2 已经做了解释。
增加参数`dummy=True`来换用多线程,应该就可以跑起来了。
这是不可以的。 只有keras
默认情况下跟keras自带的`multi_gpu_model`基本一样的,重新实现只是为了更灵活控制而已。目前测试不充分,不建议使用。
examples只保证匹配最新版本bert4keras
h是head的数目,d是head_size。 PS:既然代码跑出了正确的结果,就不大可能有这种严重错误,建议以后遇到类似的问题,不要往这方面思考。
不是本来就默认`random=False`了么?没看懂你想表达什么
梯度累积需要新建一组变量来缓存梯度,理论上是需要更多的显存。但是你说batch_size从16到4都不行,我就不大确定什么问题了,印象中不至于新增那么多显存消耗。
暂时不支持英文版roberta加载(捂脸)。 因为它没中文权重,而我不做非中文任务,所以开发时就没考虑...... 我抽空补充一下吧。