stick_jitb
stick_jitb
When I try to segment a string containing the pattern '[ / ]', an UnboundLocalError has occurred. No errors when trying to segment '[/]' or '/' or '[ * ]'...
我在PyNLPIR那边报告了这个问题,他们给出的解释是由于NLPIR返回的字符串里使用/作为词语和词性的分隔符,空格作为词语之间的分隔符,所以当字符串里出现[ / ]时会导致返回结果出现[ / ]/xm从而使程序以为中间那个/也是词语的分界线,但是后面的词性却是空,从而解析出错。回复原文见: https://github.com/tsroten/pynlpir/issues/96 想知道如果确实如此,那么这种情况有办法避免吗?即使不使用PyNLPIR,按照正常方法处理这样的返回字符串显然也会出问题。 [ / ]这个模式虽然并不常见,但是也会在很多场合能够见到。如维基百科中介绍二笔输入法的词条里有一句话为: 即26個英文字母鍵和4個非字母符號鍵[ , ] [ . ] [ / ] [ ; ] 其中[ / ]用来表示按键/
当我对如下句子进行分词的时候: 〜refrain〜 The songs were inspired by "EVANGELION" 程序返回的结果是: ^|^|銆淾|^|refrain|^|^|銆淾|^|The|songs|were|inspired|by|&|quot|;|EVANGELION| |代表词语的边界。可以看出,分词的结果里出现了很多多余的字。 当我删去最后一个单词EVANGELION的时候,程序输出: 〜|refrain|〜| |The| |songs| |were| |inspired| |by| |&|quot|;| 并没有出现多余的字。 我使用的是PyNLPIR。他们确定不是他们的包装程序的错。 虽然这也许算不上是一个typical的错误,但我很想知道这个问题是如何产生的……