cppjieba icon indicating copy to clipboard operation
cppjieba copied to clipboard

这个分词工具似乎有敏感词分词问题

Open xiasummer opened this issue 4 years ago • 2 comments

我是discourse的用户,使用过程中发现这里的很多词语无法被搜索出来。而且这些词语看起来都具有一定的政治上的敏感性,换句话说敏感词。

特意问了一下discourse到底使用的是什么分词工具,看到论坛上有人的回答是,应该是jieba工具。

不知道是不是真的使用的咱们的工具。如果是的话,那么我觉得就值得说一下——咱们做的毕竟是基础工具,敏感词不是咱们应该考虑过滤的——后面的人可以考虑分析或者不分析,但是咱们这个“基础”的分词器应该能够做到完全功能。

ref https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

https://meta.discourse.org/t/whats-the-word-tokenizer-for-different-languages-in-discourse/152893/2

xiasummer avatar May 27 '20 07:05 xiasummer

更多的政治人物的名词都是敏感的,甚至我搜周恩来都搜不出来。

xiasummer avatar Jun 22 '20 06:06 xiasummer

更多的政治人物的名词都是敏感的,甚至我搜周恩来都搜不出来。

照你说的这个例子的话,那应该用的不是jieba,至少用的不是jieba的词典,因为在结巴的词典中是有"周恩来"一词的。另外,据我对jieba的了解,这款分词工具不具备敏感词的处理功能,你给的训练语料中有什么词,他就会用什么词,不会考虑是不是敏感词。jieba的训练语料之一是人民日报语料,该语料中也有江泽民、毛泽东等主席的名字。

PierreZhangcw avatar Sep 07 '20 10:09 PierreZhangcw