ChineseWordSegmentation

ChineseWordSegmentation copied to clipboard

Reame
Issues

大量数据的效率问题

Open qiaofei32 opened this issue 9 years ago • 3 comments

如果是大量的数据，效率会不会很低？

Dec 19 '16 09:12 qiaofei32

实测，i7-6700K，32G内存的电脑，处理40W的语料库，大约需要3-5分钟。

效率还是很可观的

Jun 18 '17 12:06 medivhna

这个太耗内存了，我40万行的数据，竟然要吃掉14G的内存，作者可以考虑优化下。

Jun 28 '17 04:06 WLswert

确实有一些Idea可以处理语料库过大的情况。

假设语料库的分布式一致的，可以将语料库切分成若干个较小的子库，然后再进行处理。
可以先限制最长词语的长度，然后将每个词作为一个“字”继续进行分词。

当然实现细节上还需要考虑更多，就不展开了。

Oct 21 '17 07:10 Moonshile