bertcner
bertcner copied to clipboard
能否换成自己的训练数据和标签类型?
你好,请问一下,我把数据换成自己的数据,也是采用这种标注方式,然后label种类也是我自己的,可以吗?
我发现换了之后,出现这种错误:
数据和标签label都换成我自己的了。
请问,这是什么原因呢?只能使用原有的label类型吗?
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!
你好,这个项目就是支持自己训练的,你把data
目录下的label.txt
换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data
目录下面的train.txt
和test.txt
.
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!
你好,这个项目就是支持自己训练的,你把
data
目录下的label.txt
换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data
目录下面的train.txt
和test.txt
.
恩,我就是按照你说的,label换成了我自己的:
训练数据train.txt和测试数据也换成我自己标注的:
ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误:
很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!
你好,这个项目就是支持自己训练的,你把
data
目录下的label.txt
换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data
目录下面的train.txt
和test.txt
.恩,我就是按照你说的,label换成了我自己的:
训练数据train.txt和测试数据也换成我自己标注的:
ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误:
很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?
嗯嗯,我看了一下,是从词典匹配法里面来的,因为我们的模型用词典匹配法(药物和手术词典)对每个字的 logits 做了修正。
也就是代码运行时的--terminology_dicts_path="{'medicine':'data/ccks_2018/drug_dict.txt','surgery':'data/ccks_2018/surgery_dict.txt'}"
产生了作用。
你用自己的数据时,可以不用这个特征,把这个设置为空应该就可以了,或者把代码里有关terminology
的都注释掉即可。
你好,这个不能使用自己的标签,因为训练好的模型的标签是定死的,不过你也可以训练自己的模型。
那请问一下,训练自己的模型部分,您这边有可以参考的项目吗?希望能参考一下,谢谢!
你好,这个项目就是支持自己训练的,你把
data
目录下的label.txt
换成自己的标签,同时构建自己的训练数据就可以了,训练数据的格式可以参考data
目录下面的train.txt
和test.txt
.恩,我就是按照你说的,label换成了我自己的:
训练数据train.txt和测试数据也换成我自己标注的:
ranhou然后预训练模型使用微调之前的pytorch_model.bin,但是就是出现下面的错误:
很明显这个KeyError: 'B-medicine'是原来的label标签里边的标签,数据我都换了,从哪来的呢?
嗯嗯,我看了一下,是从词典匹配法里面来的,因为我们的模型用词典匹配法(药物和手术词典)对每个字的 logits 做了修正。 也就是代码运行时的
--terminology_dicts_path="{'medicine':'data/ccks_2018/drug_dict.txt','surgery':'data/ccks_2018/surgery_dict.txt'}"
产生了作用。 你用自己的数据时,可以不用这个特征,把这个设置为空应该就可以了,或者把代码里有关terminology
的都注释掉即可。
好的!非常感谢