苏剑林(Jianlin Su) comments

Results 390 comments of


                                            苏剑林(Jianlin Su)

https://github.com/bojone/attention/issues/2

我的意思也就是说合理就行，不一定拘泥于形式。何况我觉得，我这种形式不只是合理，而是完全等价于原来的形式。在https://github.com/bojone/attention/issues/2 已经做了解释。

增加参数`dummy=True`来换用多线程，应该就可以跑起来了。

这是不可以的。只有keras

默认情况下跟keras自带的`multi_gpu_model`基本一样的，重新实现只是为了更灵活控制而已。目前测试不充分，不建议使用。

examples只保证匹配最新版本bert4keras

h是head的数目，d是head_size。 PS：既然代码跑出了正确的结果，就不大可能有这种严重错误，建议以后遇到类似的问题，不要往这方面思考。

不是本来就默认`random=False`了么？没看懂你想表达什么

梯度累积需要新建一组变量来缓存梯度，理论上是需要更多的显存。但是你说batch_size从16到4都不行，我就不大确定什么问题了，印象中不至于新增那么多显存消耗。

暂时不支持英文版roberta加载（捂脸）。因为它没中文权重，而我不做非中文任务，所以开发时就没考虑...... 我抽空补充一下吧。