NLP

Results 23 comments of NLP

The tag Schema needs to be consistent with the format in the repository. For example: Zine B-PER al-Abidine I-PER Ben I-PER Ali E-PER

where is the notebook ? @EmCity

原文“科学技术是第一生产力” 输出里没有“技”,因为词表里只有“技术”。

“技”这么常见的单字,要当作未登录词吗?

从这里[https://github.com/bojone/bert4keras/blob/master/pretraining/data_utils.py](https://github.com/bojone/bert4keras/blob/master/pretraining/data_utils.py)生成的训练集,用的模型是 `dict_path = '/home/spaces_ac_cn/chinese_L-12_H-768_A-12/vocab.txt'` 这个模型从这里下载的 [https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)

从这个链接下的文件有问题吗? 我看data_utils.py里用了jibea,但bert4keras的代码里没有导入分词器。

印象词典里少标记会报错,具体运行哪里报的就忘了,当时记录了参考的链接: ``` 参考: https://github.com/bojone/bert4keras/blob/c8df00366bf39a83ada2ae935dff72fe13393f8c/bert4keras/tokenizers.py#L46 参考:https://github.com/bojone/bert4keras/issues/126 ```

那预训练出的模型,要怎么推断,推断全基于单字,训练时分词?

那建议 就把https://github.com/bojone/bert4keras/tree/master/pretraining 这个目录都删了吧,免得引起大家误会。