Yanyi Wu

Results 111 comments of Yanyi Wu

可以说下原因吗?谢谢

@jannson 我没用过mmap,找个时间再看看。 不过个人觉得载入字典这个初始化过程毕竟只有一次,不优化关系也不大。 如果有关于切词函数中算法值得优化的地方会更有效。

@jannson 噢噢,你这么一说我就明白了,我之前还纳闷你为什么一直对内存很在意。

了解了一下Double Array Trie,应该能用来节约内存, @jannson 你用的是Darts那个库吗? @soe-coe 本项目用到c++11的地方很少呀,完全可以用c++98的语法来写的, aho-corasick我没做过,或许你可以fork此项目去尝试看看 :)

@soe-coe 如果有测试的需要的话,性能测试的方法可以在build目录下使用这个命令即可`make load_test && time ./test/load_test`看看时间即可 @jannson 最近也在一些云主机部署上因为内存占用吃了点苦头,我暂时是通过修改Trie.hpp文件里面的`typedef unordered_map TrieNodeMap;` 修改为 `typedef map TrieNodeMap;` 即可以让内存占用降低将近50%,同时切词速度只变慢了差不多10%。 现在将此改动弄在`less_memory`分支上,有需要的话可以checkout试试。:) 之后有时间再尝试看看使用DoubleArrayTrie ,如果你有时间pull request那就更好了 :)

@ultimate010 是的,如果我没记错的话,现在的CppJieba的Trie源码实现就是使用aho-corasick 算法。

什么编译条件下报错

https://github.com/jannson/cppjiebapy 试试这个?