jieba-php issues

结果中出现了形如 \n2 这样的换行加数字的结果，如何不匹配换行开始的结果呢？

3

原字符串是团队管理 1、团队成员赋能\n2、团队成员工作协助、流程管控\n3、团队稳定性匹配后的结果是团队,管理,成员,赋能,\n2,工作,协助,流程,管控,\n3,稳定性其中 \n是换行符，希望能不匹配到换行符应该怎么做呢？user_dict.txt里面添加 \n 1000000 w 没有效果

591776998

help wanted

作者你好，提个优化内存消耗和加载字典时间的建议

7

createlinux

question

初始化之后，内存一直占用着不会释放

Jieba::init(); Finalseg::init(); $lists = Jieba::cut($string); 运行在fpm模式下面，内存占用200多M，然后一直不释放，这个就蛋疼了

1638523919

help wanted

实现初始化时的性能调优

1

用了下这版的jieba，感觉加载词典时候太慢了，性能分析之后发现是因为拆分字典每一行外加存入original_freq、total数组各占了一半消耗时间。之前有人发过issue说的是开api服务的方式常驻内存的方式来减少加载消耗，但方案还是繁琐，于是改造了Jieba::genTrie()方法，做了一个缓存功能，使得不用重复读取字典，**运行过第一次之后会直接生成缓存，之后就能直接使用生成好的original_freq数组即可**。其实作者在方法里注释掉了其他cache载入，应该也有想到，不知道为什么没加这个功能？经测试：加载big字典，处理速度从原来的9秒以上缩减到2-3秒加载普通字典，从原来的5秒以上缩减到2秒加载small词典，从原来的3秒以上缩减到1秒以下。最后希望作者能够继续维护好这版jieba。现在在爆肝赶工中，而且也优化了了其他的地方，暂时没时间pull request **如果修改了字典，把.cache文件删除即可。** **只需要把下面代码覆盖原来的Jieba::genTrie()方法即可实现缓存字典:** ``` /** * Static method genTrie * * @param string $f_name # input f_name * @param array $options...

yukon12345

enhancement

中文操作tip

在中文的操作过程中，遇到字符串的长度、截取等操作，如果直接使用 strlen、substr 等处理字符串，会在 VicWord.php 的 function getD(&$str, $i) 报错，由于中文的编码不同与英文，所以需要用 mb_strlen、mb_substr 等，以 mb_开头的方法来处理字符串，不然会无法分词或者报错

acclea

question

请问一下，自定义添加词条时怎么设置词性，词性可以自定义吗？

2

作者您好，Jieba::addWord($word, $freq, $tag = '', $options = array())这个方法的$tag这个参数是用来设置词性的吗？我在代码里发现$tag这个参数是没有做处理的。请问一下，在添加自定义词条时怎么设置词性，词性可以自定义吗？

cjt24703

enhancement

个人整理了关于HMM、Viterbi和中文分词的学习笔记，请交流指导

[HMM、Viterbi与中文分词](https://blog.csdn.net/qq_23937195/article/details/102684635)

linhongzhao321

share

textrank实现

请问是否有 textrank 的实现和调用方式

linhongzhao321

help wanted

【优化建议】冗余代码

2

如下图所示，Jieba.php的这部分代码应该是无意义的重复吧？应该可以去掉下面那一段 ![image](https://user-images.githubusercontent.com/33045301/66546602-ef49d000-eb6f-11e9-8256-b3a6d91aa97b.png)

linhongzhao321

wontfix

cutforsearch

2

Hi, this is my first time using this. so please bear with me :). i tried the cutforsearch demo, $seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所，后在日本京都大学深造"); #搜索引擎模式 var_dump($seg_list); the output is array(18) without comma...

bryrosal

wontfix

jieba-php
jieba-php copied to clipboard

Metadata

结果中出现了形如 \n2 这样的换行加数字的结果，如何不匹配换行开始的结果呢？

作者你好，提个优化内存消耗和加载字典时间的建议

初始化之后，内存一直占用着不会释放

实现初始化时的性能调优

中文操作tip

请问一下，自定义添加词条时怎么设置词性，词性可以自定义吗？

个人整理了关于HMM、Viterbi和中文分词的学习笔记，请交流指导

textrank实现

【优化建议】冗余代码

cutforsearch

← Metadata

Owner

Metadata

jieba-php jieba-php copied to clipboard

Metadata

← Metadata

Owner

Metadata

jieba-php
jieba-php copied to clipboard