yhcc

Results 174 comments of yhcc

Maybe just set the ``num_workers'' in Trainer to 0 will solve this problem.

我们在CPT(https://arxiv.org/abs/2109.05729)开源的中文BART上尝试过,印象中性能会比直接sequence labeling的方式差一些,当时的看的几个错误感觉应该是由于找准boundary在中文上比英文更难。

你是对的,论文中的那个图存在错误。

我不太清楚是啥问题,不过为啥不直接BartTokenizer.from_pretrained让它自己下载vocab文件咧。

0和2分别是bart的start-of-sentence和end-of-sentence。

有时候训练过程F1会突然降低到0(可能是出现了inf或者nan之类的),这种情况,这个callback会主动停止掉训练。

Just train it again, it is because of the convergence failure.

1. fnlp/bart-large-chinese用的是BertTokenizer,所以下面这里应该是需要删掉add_prefix_space=True这个 https://github.com/yhcc/BARTNER/blob/b1741fec4d1696b5712f5d60b3ee1318bd8d05c9/data/pipe.py#L113 2. 好像是就没有需要改动了,之前我有尝试过使用中文bart跑flat ner,但是效果比bert会差一些,主要原因是由于好像生成式的方式在中文里面会比较难找对boundary,但是我也没咋调参,不确定如果修改一些参数会不会让效果好一些。

You should make sure the first column and second column of your data are tokens and labels, respectively. Based on the sample from https://github.com/yuchenlin/OntoNotes-5.0-NER-BIO/blob/master/onto.test.ner.sample , the results put the label...

We follow previous paper merge the dev and train sets as the train set. Therefore, for the conll2003 dataset, the dev metric is the final test metric.