fastNLP icon indicating copy to clipboard operation
fastNLP copied to clipboard

一个疑问:为什么ConllLoader要把“#”过滤掉

Open hupidong opened this issue 2 years ago • 2 comments

你好,在用ConllLoader加载NER数据集的时候,发现会把"#"过滤掉,因为在实际的问句中确实有#号存在的情况,不知道是出于什么原因考虑过滤掉呢?是否可以不过滤,或者支持自定义是否过滤?谢谢。

fastNLP.io.file_reader line 124,125: elif line.startswith('#'): continue

hupidong avatar Jun 01 '22 16:06 hupidong

因为在conll的格式定义中,一般#开头的句子都是表示meta-data或者comment的,因为常用的conll格式第一列一般是数字序号,所以不会出现#。不过后来大家在实际使用的时候,一般就没有加入数字序号了。感谢你的建议,我们会在之后的版本中增加一个参数,用来关闭忽略#开头的句子。

yhcc avatar Jun 02 '22 05:06 yhcc

因为在conll的格式定义中,一般#开头的句子都是表示meta-data或者comment的,因为常用的conll格式第一列一般是数字序号,所以不会出现#。不过后来大家在实际使用的时候,一般就没有加入数字序号了。感谢你的建议,我们会在之后的版本中增加一个参数,用来关闭忽略#开头的句子。

好的,谢谢。

hupidong avatar Jun 04 '22 08:06 hupidong