Kaiqiang Duan
Results
1
comments of
Kaiqiang Duan
确实有一些Idea可以处理语料库过大的情况。 1. 假设语料库的分布式一致的,可以将语料库切分成若干个较小的子库,然后再进行处理。 2. 可以先限制最长词语的长度,然后将每个词作为一个“字”继续进行分词。 当然实现细节上还需要考虑更多,就不展开了。