fastNLP
fastNLP copied to clipboard
一个疑问:为什么ConllLoader要把“#”过滤掉
你好,在用ConllLoader加载NER数据集的时候,发现会把"#"过滤掉,因为在实际的问句中确实有#号存在的情况,不知道是出于什么原因考虑过滤掉呢?是否可以不过滤,或者支持自定义是否过滤?谢谢。
fastNLP.io.file_reader line 124,125: elif line.startswith('#'): continue
因为在conll的格式定义中,一般#开头的句子都是表示meta-data或者comment的,因为常用的conll格式第一列一般是数字序号,所以不会出现#。不过后来大家在实际使用的时候,一般就没有加入数字序号了。感谢你的建议,我们会在之后的版本中增加一个参数,用来关闭忽略#开头的句子。
因为在conll的格式定义中,一般#开头的句子都是表示meta-data或者comment的,因为常用的conll格式第一列一般是数字序号,所以不会出现#。不过后来大家在实际使用的时候,一般就没有加入数字序号了。感谢你的建议,我们会在之后的版本中增加一个参数,用来关闭忽略#开头的句子。
好的,谢谢。