苏剑林(Jianlin Su)
苏剑林(Jianlin Su)
> 如果出现了词表中不存在的词Z, 将Z转换成id的 tokenizers.py 第199行self._token_dict.get(“Z”, self._token_unk_id) 会等于self._token_unk_id,而这个没定义。 你究竟能不能理解一下我前面说的话? 只要你的词表有[UNK],那么这个`self._token_unk_id`就不会报错,也就是有定义,这个定义不是通过`self._token_unk_id = xxx`来定义,是通过`setattr`来定义。 我真不知道你在纠结什么...
> > > 如果出现了词表中不存在的词Z, 将Z转换成id的 tokenizers.py 第199行self._token_dict.get(“Z”, self._token_unk_id) 会等于self._token_unk_id,而这个没定义。 > > > > > > 你究竟能不能理解一下我前面说的话? > > 只要你的词表有[UNK],那么这个`self._token_unk_id`就不会报错,也就是有定义,这个定义不是通过`self._token_unk_id = xxx`来定义,是通过`setattr`来定义。 > > 我真不知道你在纠结什么... > > 感觉是我的表达问题。。 我说的是对于不在词表中的新词,要从token转id的时候。 跟词表里有没有[UNK]没关系。 1、对于不在词表的词,会转换为`self._token_unk_id`;...
训练好加载就不用keep_tokens和compound_tokens参数了,修改一下vocab_size为新的值即可。
检查过所有数据,确认标签都是在[0, num_classes)范围内了吗?
方便提供一份可复现的代码和数据吗?如果可以的话发到我邮箱,我来调试下
好的,但是我还是感觉是数据异常的问题。如果真的是数据量,你可以试试几条数据复制几万份看看。
可以考虑,但没时间精力做,抱歉。
mirroedstrategy需要用tf.keras,传入环境变量TF_KERAS=1就好。
https://github.com/bojone/bert4keras/blob/master/examples/task_seq2seq_autotitle_multigpu.py 请试用这个脚本
我也没试过成功在多进程/多线程中加载模型。