ChineseWordSegmentation icon indicating copy to clipboard operation
ChineseWordSegmentation copied to clipboard

大量数据的效率问题

Open qiaofei32 opened this issue 9 years ago • 3 comments

如果是大量的数据,效率会不会很低?

qiaofei32 avatar Dec 19 '16 09:12 qiaofei32

实测,i7-6700K,32G内存的电脑,处理40W的语料库,大约需要3-5分钟。

效率还是很可观的

medivhna avatar Jun 18 '17 12:06 medivhna

这个太耗内存了,我40万行的数据,竟然要吃掉14G的内存,作者可以考虑优化下。

WLswert avatar Jun 28 '17 04:06 WLswert

确实有一些Idea可以处理语料库过大的情况。

  1. 假设语料库的分布式一致的,可以将语料库切分成若干个较小的子库,然后再进行处理。
  2. 可以先限制最长词语的长度,然后将每个词作为一个“字”继续进行分词。

当然实现细节上还需要考虑更多,就不展开了。

Moonshile avatar Oct 21 '17 07:10 Moonshile