ChineseWordSegmentation
ChineseWordSegmentation copied to clipboard
大量数据的效率问题
如果是大量的数据,效率会不会很低?
实测,i7-6700K,32G内存的电脑,处理40W的语料库,大约需要3-5分钟。
效率还是很可观的
这个太耗内存了,我40万行的数据,竟然要吃掉14G的内存,作者可以考虑优化下。
确实有一些Idea可以处理语料库过大的情况。
- 假设语料库的分布式一致的,可以将语料库切分成若干个较小的子库,然后再进行处理。
- 可以先限制最长词语的长度,然后将每个词作为一个“字”继续进行分词。
当然实现细节上还需要考虑更多,就不展开了。