word-discovery 小数据集能跑，但 800M 的数据就卡住，请问应该如何排查？

小数据集能跑，但 800M 的数据就卡住，请问应该如何排查？

Open ChaooMa opened this issue 4 years ago • 5 comments

相同代码，相同配置，只改了读入文件。3M 数据能跑出结果，800M 就卡住了。长期停留在此处： 2020-04-27 15:56:31,686 - INFO - build ngram trie - 3400000/3457260 passed

Apr 29 '20 04:04 ChaooMa

我的也是，好像有几个处理特别费时间。

Jan 21 '21 05:01 myboyliu

这么神奇的吗，build 完 ngram trie 之后，应该就进入正式的新词发现阶段，好像不至于卡住呀。

Jan 21 '21 05:01 bojone

没错，大文件就卡在build ngram trie这里了

Jan 22 '21 08:01 Heguanlin-rec

确实会卡住，我跑了1g的数据，在ngtrie tokenize这里就不动了。

Mar 17 '22 10:03 tankcong

卡住的问题应该是你们的text_generator分割有问题，导致读进来的text过长

Jan 09 '23 09:01 LCorleone