zh-NER-TF
zh-NER-TF copied to clipboard
如何更换数据集,训练新的模型呢?
看着code里面有好多数据,如果要准备新的数据集,需要更换哪几个文件,训练数据需要的格式是什么呢?感谢感谢
同问,谢谢!
Hi, 需要替换的地方有两个:
- 数据集文件。用你的数据集来替换train_data,格式需要一致(每行都是'字\t标签';空行代表句子结束)。你可以打开train_data看下格式(为了查看方便你可以添加txt后缀之后再打开)
- 词表文件,word2id.pkl。这个是一个dict,键是字,值是字的id。
data.py
里提供了生成词表文件的代码。
如何调用data.py生成word2id.pkl文件?输入是什么?
请问data.py
中的方法生成的词表文件的id如何对应预训练的embedding中id