苏剑林(Jianlin Su) comments

Results 390 comments of


                                            苏剑林(Jianlin Su)

您好，有大佬能提供一个预测inference代码吗？即未给定标签的情感文本，使用预测脚本推断情感值？

examples的脚本都自带的，好好读读。

model.save() 报错TypeError: can't pickle _thread.RLock objects

单独保存encoder或者decoder呢

tokenizer不分词

我不知道你的词表哪里来的。我看了看roformer的词表，里边显然是有“技”单字的，然后roformer的词表最后一个也不是[MASK]

tokenizer不分词

如果是chinese_L-12_H-768_A-12的词表，那么大小应该是2万多个词，并且最后一个也不是[MASK]

tokenizer不分词

> 从这个链接下的文件有问题吗？我看data_utils.py里用了jibea，但bert4keras的代码里没有导入分词器。这个链接没有问题，是你自己不知道怎么改得有问题。data_utils.py用jieba是做wwm的，跟tokenizer没直接关系。

tokenizer不分词

> 那预训练出的模型，要怎么推断，推断全基于单字，训练时分词？如果你说的是bert或者roberta，那么训练和推断都没分词。这些基本概念建议自行查阅资料了解。

> 那建议就把https://github.com/bojone/bert4keras/tree/master/pretraining 这个目录都删了吧，免得引起大家误会。这个目录实现得很清楚，不会引起什么误会。wwm具体含义是什么，请了解好再来讨论，至少在wwm的实现上，参考脚本的实现完全没有问题。这个预训练脚本放出也不是一天两天了，很多人都读过用过，小问题可能有，但不至于有这种低级错误。有问题建议多反思自己。

tokenizer不分词

> 大哥，训练和预测的预处理都该一致吧，这就算不用BERT都该明白。不管加不加wwm，训练和预测都没分词，哪里不一致了？你确定你知道wwm是什么了吗？