VLP-MABSA
VLP-MABSA copied to clipboard
预训练数据集中的 & < 需要做 unescape 么?
您好, 我下载预训练数据后发现里面有一些 & , < 这样被转义后的token,这些您有做 unescape 么?

感谢
您好,我们并没有对原始的数据集做其他的清洗工作,仅仅使用了NLTK进行简单的分词来将@之类的特殊符号与单词分割开与下游数据集保持一致。