NLP_pytorch_project icon indicating copy to clipboard operation
NLP_pytorch_project copied to clipboard

利用bert进行纠错的数据可以提供一个格式示例吗?

Open wangguanhua opened this issue 5 years ago • 3 comments

如题,简单提供一两条数据就好。

wangguanhua avatar Sep 29 '20 04:09 wangguanhua

如题,简单提供一两条数据就好。

训练数据 就是对bert进行预训练的数据格式。 如果项目中需纠错 不建议用bert直接进行纠错。效果不好。

shawroad avatar Sep 29 '20 04:09 shawroad

那就是和pycorrector的思路一样喽,不过那个项目纠错效果还行,估计是数据量的原因?

wangguanhua avatar Sep 29 '20 04:09 wangguanhua

那就是和pycorrector的思路一样喽,不过那个项目纠错效果还行,估计是数据量的原因?

bert的预训练的数据格式 将一篇文章分成多行,文章和文章之间用空格隔开。 举例: 文章1的第一句话 文章1的第二句话 .... 文章1的第n句话

文章2的第一句话 文章2的第二句话 .... 文章2的第n句话

shawroad avatar Sep 29 '20 04:09 shawroad