bertcner icon indicating copy to clipboard operation
bertcner copied to clipboard

能否换成自己的训练数据和标签类型?

Open sportzhang opened this issue 4 years ago • 6 comments

你好,请问一下,我把数据换成自己的数据,也是采用这种标注方式,然后label种类也是我自己的,可以吗? 我发现换了之后,出现这种错误: image 数据和标签label都换成我自己的了。 请问,这是什么原因呢?只能使用原有的label类型吗?

sportzhang avatar Oct 18 '20 13:10 sportzhang

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

lxy444 avatar Oct 18 '20 14:10 lxy444

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!

sportzhang avatar Oct 19 '20 02:10 sportzhang

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!

你好,这个项目就是支持自己训练的,你把data目录下的label.txt换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data目录下面的train.txttest.txt.

lxy444 avatar Oct 19 '20 02:10 lxy444

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!

你好,这个项目就是支持自己训练的,你把data目录下的label.txt换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data目录下面的train.txttest.txt.

恩,我就是按照你说的,label换成了我自己的: image 训练数据train.txt和测试数据也换成我自己标注的: image ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误: image 很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?

sportzhang avatar Oct 19 '20 03:10 sportzhang

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!

你好,这个项目就是支持自己训练的,你把data目录下的label.txt换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data目录下面的train.txttest.txt.

恩,我就是按照你说的,label换成了我自己的: image 训练数据train.txt和测试数据也换成我自己标注的: image ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误: image 很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?

嗯嗯,我看了一下,是从词典匹配法里面来的,因为我们的模型用词典匹配法(药物和手术词典)对每个字的 logits 做了修正。 也就是代码运行时的--terminology_dicts_path="{'medicine':'data/ccks_2018/drug_dict.txt','surgery':'data/ccks_2018/surgery_dict.txt'}" 产生了作用。 你用自己的数据时,可以不用这个特征,把这个设置为空应该就可以了,或者把代码里有关terminology的都注释掉即可。

lxy444 avatar Oct 19 '20 06:10 lxy444

你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。

那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!

你好,这个项目就是支持自己训练的,你把data目录下的label.txt换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data目录下面的train.txttest.txt.

恩,我就是按照你说的,label换成了我自己的: image 训练数据train.txt和测试数据也换成我自己标注的: image ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误: image 很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?

嗯嗯,我看了一下,是从词典匹配法里面来的,因为我们的模型用词典匹配法(药物和手术词典)对每个字的 logits 做了修正。 也就是代码运行时的--terminology_dicts_path="{'medicine':'data/ccks_2018/drug_dict.txt','surgery':'data/ccks_2018/surgery_dict.txt'}" 产生了作用。 你用自己的数据时,可以不用这个特征,把这个设置为空应该就可以了,或者把代码里有关terminology的都注释掉即可。

好的!非常感谢

sportzhang avatar Oct 19 '20 07:10 sportzhang