zh-NER-TF icon indicating copy to clipboard operation
zh-NER-TF copied to clipboard

如何更换数据集,训练新的模型呢?

Open TtingZh opened this issue 6 years ago • 4 comments

看着code里面有好多数据,如果要准备新的数据集,需要更换哪几个文件,训练数据需要的格式是什么呢?感谢感谢

TtingZh avatar Sep 11 '18 06:09 TtingZh

同问,谢谢!

LCabbage avatar Oct 11 '18 07:10 LCabbage

Hi, 需要替换的地方有两个:

  1. 数据集文件。用你的数据集来替换train_data,格式需要一致(每行都是'字\t标签';空行代表句子结束)。你可以打开train_data看下格式(为了查看方便你可以添加txt后缀之后再打开)
  2. 词表文件,word2id.pkl。这个是一个dict,键是字,值是字的id。data.py里提供了生成词表文件的代码。

Determined22 avatar Oct 18 '18 13:10 Determined22

如何调用data.py生成word2id.pkl文件?输入是什么?

alexanderwjz avatar Jan 18 '19 05:01 alexanderwjz

请问data.py中的方法生成的词表文件的id如何对应预训练的embedding中id

Issacwww avatar Jun 20 '19 10:06 Issacwww