gojieba icon indicating copy to clipboard operation
gojieba copied to clipboard

新手问题: stop_words.utf8 的实际用途?

Open huangjunwen opened this issue 5 years ago • 2 comments

按我原来的理解 stop words (~/go/pkg/mod/github.com/yanyiwu/[email protected]/dict/stop_words.utf8) 应该是在最终输出里面去除掉的词, 但根据现有 api 我无法找到去除掉它们的方法

例如

package main

import (
	"fmt"
	"os"

	"github.com/yanyiwu/gojieba"
)

func main() {
	text := os.Args[1]
	seg := gojieba.NewJieba()
	defer seg.Free()

	words := seg.Tokenize(text, gojieba.DefaultMode, true)
	for _, word := range words {
		fmt.Println(word, seg.Tag(word.Str))
	}

}

$ go run ./main.go '我爱吃的水果包括西瓜, 橙子等等'
{我 0 3} [我/r]
{爱 3 6} [爱/v]
{吃 6 9} [吃/v]
{的 9 12} [的/uj]
{水果 12 18} [水果/n]
{包括 18 24} [包括/v]
{西瓜 24 30} [西瓜/ns]
{, 30 31} [,/x]
{  31 32} [ /x]
{橙子 32 38} [橙子/n]
{等等 38 44} [等等/u]

这里包括 , 等等 这些都是在 `stop_words.utf8' 中的, 不知道是不是我理解错了什么?

huangjunwen avatar Jan 07 '20 04:01 huangjunwen

好像停用词表没有生效,我这边也有这个问题

0XFF-96 avatar May 27 '20 09:05 0XFF-96

我后来自己 fork 了一份加上了

huangjunwen avatar May 27 '20 10:05 huangjunwen