jieba-php icon indicating copy to clipboard operation
jieba-php copied to clipboard

"結巴"中文分詞:做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.

Results 23 jieba-php issues
Sort by recently updated
recently updated
newest added

原字符串是 团队管理 1、团队成员赋能\n2、团队成员工作协助、流程管控\n3、团队稳定性 匹配后的结果是 团队,管理,成员,赋能,\n2,工作,协助,流程,管控,\n3,稳定性 其中 \n是换行符,希望能不匹配到换行符应该怎么做呢?user_dict.txt里面添加 \n 1000000 w 没有效果

help wanted

如果能写成单例模式就好了,结合swoole让实例常驻内存。 然后搭建一个swoole api应用。使用的时候请求api接口,因为实例常驻内存,不用每次都初始化,所以内存消耗和加载速度非常的快。 我测了一下:内存消耗和时间花费都在加载字典上面。停词花费的时间并不多。 我把搜狗的几个词库加进去,10万3000行左右。加载速度特别慢,其他的步骤还好。 - 内存使用:0.67919158935547|初始化之前| 花费时间:0 - 内存使用:79.676719665527|结巴初始化完成| 花费时间:0.12999987602234 - 内存使用:82.161094665527|Finalseg初始化完成| 花费时间:0.14949989318848 - 内存使用:109.49954223633|JiebaAnalyse初始化完成| 花费时间:0.33049988746643 - 内存使用:207.0001373291|加载字典完成| 花费时间:2.8549997806549 - 内存使用:207.19972229004|加载停词完成| 花费时间:2.8864998817444 - 内存使用:207.19972229004|0 | 花费时间:2.8864998817444 - 内存使用:208.78179931641|1| 花费时间:3.0029997825623...

question

Jieba::init(); Finalseg::init(); $lists = Jieba::cut($string); 运行在fpm模式下面,内存占用200多M,然后一直不释放,这个就蛋疼了

help wanted

用了下这版的jieba,感觉加载词典时候太慢了, 性能分析之后发现是因为拆分字典每一行外加存入original_freq、total数组各占了一半消耗时间。 之前有人发过issue说的是开api服务的方式常驻内存的方式来减少加载消耗,但方案还是繁琐, 于是改造了Jieba::genTrie()方法,做了一个缓存功能,使得不用重复读取字典,**运行过第一次之后会直接生成缓存,之后就能直接使用生成好的original_freq数组即可**。其实作者在方法里注释掉了其他cache载入,应该也有想到,不知道为什么没加这个功能? 经测试: 加载big字典,处理速度从原来的9秒以上缩减到2-3秒 加载普通字典,从原来的5秒以上缩减到2秒 加载small词典,从原来的3秒以上缩减到1秒以下。 最后希望作者能够继续维护好这版jieba。现在在爆肝赶工中,而且也优化了了其他的地方,暂时没时间pull request **如果修改了字典,把.cache文件删除即可。** **只需要把下面代码覆盖原来的Jieba::genTrie()方法即可实现缓存字典:** ``` /** * Static method genTrie * * @param string $f_name # input f_name * @param array $options...

enhancement

在中文的操作过程中,遇到字符串的长度、截取等操作,如果直接使用 strlen、substr 等处理字符串,会在 VicWord.php 的 function getD(&$str, $i) 报错,由于中文的编码不同与英文,所以 需要用 mb_strlen、mb_substr 等,以 mb_开头的方法来处理字符串,不然会无法分词或者报错

question

作者您好,Jieba::addWord($word, $freq, $tag = '', $options = array())这个方法的$tag这个参数是用来设置词性的吗?我在代码里发现$tag这个参数是没有做处理的。请问一下,在添加自定义词条时怎么设置词性,词性可以自定义吗?

enhancement

[HMM、Viterbi与中文分词](https://blog.csdn.net/qq_23937195/article/details/102684635)

share

请问是否有 textrank 的实现和调用方式

help wanted

如下图所示,Jieba.php的这部分代码应该是无意义的重复吧?应该可以去掉下面那一段 ![image](https://user-images.githubusercontent.com/33045301/66546602-ef49d000-eb6f-11e9-8256-b3a6d91aa97b.png)

wontfix

Hi, this is my first time using this. so please bear with me :). i tried the cutforsearch demo, $seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式 var_dump($seg_list); the output is array(18) without comma...

wontfix