gojieba
gojieba copied to clipboard
新手问题: stop_words.utf8 的实际用途?
按我原来的理解 stop words (~/go/pkg/mod/github.com/yanyiwu/[email protected]/dict/stop_words.utf8
) 应该是在最终输出里面去除掉的词, 但根据现有 api 我无法找到去除掉它们的方法
例如
package main
import (
"fmt"
"os"
"github.com/yanyiwu/gojieba"
)
func main() {
text := os.Args[1]
seg := gojieba.NewJieba()
defer seg.Free()
words := seg.Tokenize(text, gojieba.DefaultMode, true)
for _, word := range words {
fmt.Println(word, seg.Tag(word.Str))
}
}
$ go run ./main.go '我爱吃的水果包括西瓜, 橙子等等'
{我 0 3} [我/r]
{爱 3 6} [爱/v]
{吃 6 9} [吃/v]
{的 9 12} [的/uj]
{水果 12 18} [水果/n]
{包括 18 24} [包括/v]
{西瓜 24 30} [西瓜/ns]
{, 30 31} [,/x]
{ 31 32} [ /x]
{橙子 32 38} [橙子/n]
{等等 38 44} [等等/u]
这里包括 我
, 等等
这些都是在 `stop_words.utf8' 中的, 不知道是不是我理解错了什么?
好像停用词表没有生效,我这边也有这个问题
我后来自己 fork 了一份加上了