VLP-MABSA icon indicating copy to clipboard operation
VLP-MABSA copied to clipboard

预训练数据集中的 &amp &lt 需要做 unescape 么?

Open 1024er opened this issue 3 years ago • 1 comments

您好, 我下载预训练数据后发现里面有一些 &amp , &lt 这样被转义后的token,这些您有做 unescape 么?

image

感谢

1024er avatar May 25 '22 16:05 1024er

您好,我们并没有对原始的数据集做其他的清洗工作,仅仅使用了NLTK进行简单的分词来将@之类的特殊符号与单词分割开与下游数据集保持一致。

lyhuohuo avatar May 26 '22 01:05 lyhuohuo