W2NER
W2NER copied to clipboard
数据集报错
我自己用同样的方法标注了两个数据集,第一可以正常运行,但是第二个运行一个epoch后就报错。。。。不知道为啥
Train 0 | Loss | F1 | Precision | Recall |
+---------+--------+--------+-----------+--------+
| Label | 0.1585 | 0.1423 | 0.1426 | 0.1420 |
+---------+--------+--------+-----------+--------+
/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py:490: UserWarning: This DataLoader will create 4 worker processes in total. Our suggested max number of worker in current system is 2, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.
cpuset_checked))
/usr/local/lib/python3.7/dist-packages/sklearn/metrics/_classification.py:1318: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples. Use zero_division
parameter to control this behavior.
_warn_prf(average, modifier, msg_start, len(result))
2022-05-24 16:50:44 - INFO: EVAL Label F1 [0.99931388 0. 0. 0. 0. 0.
0. ]
2022-05-24 16:50:44 - INFO:
+--------+--------+-----------+--------+
| EVAL 0 | F1 | Precision | Recall |
+--------+--------+-----------+--------+
| Label | 0.1428 | 0.1427 | 0.1429 |
| Entity | 0.0000 | 0.0000 | 0.0000 |
+--------+--------+-----------+--------+
/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py:490: UserWarning: This DataLoader will create 4 worker processes in total. Our suggested max number of worker in current system is 2, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.
cpuset_checked))
Traceback (most recent call last):
File "./drive/MyDrive/W2NER/main.py", line 253, in
从报错结果来看应该是输入超过了BERT的512长度限制
从报错结果来看应该是输入超过了BERT的512长度限制
对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。
从报错结果来看应该是输入超过了BERT的512长度限制
对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。
是不是数据集和标签处理有问题呢
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理
明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。
明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。
你好,数据集预处理的代码可以分享一下吗?邮箱[email protected]
那个人的数据格式都不同,你只需要按照作者的格式提取相应的信息整合即可
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理
我的实体语料里面有很多的英文名称,但是我想做中文的命名实体识别,我目前有两种方案:①语料中不标注英文实体,只标注中文实体,但是英文也在语料句子中; ②将语料中的英文直接去掉用空格或者空字符代替(或者用其他符号代替),我想问问两种方法您比较推荐哪一个?
可以先尝试一下第二种方案,更容易实现一些。