word-discovery
word-discovery copied to clipboard
增加支持 Windows 环境的运行和补充第三方工具
增加支持 Windows 环境的运行和补充第三方工具,以及优化性能和注释等。 还有,KenlmNgrams.read_ngrams() 方法处理逻辑略有调整,请审核合理性。
谢谢!
PS: 同一人在科学空间有回复: 无剑 发表于 March 15th, 2024 CPU: 11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz 内存: 16.0 GB, 可用 4.9 GB
在上面这台笔记本电脑(Windows 10)上一个分词初学者折腾好几天了,先是安装编译 kenlm Windows 版,昨天下午终于开始可以用 100 MB大文件试试了,结果到今早上班也没有出来,思索着是不是真的要去申请大服务器吗?死马当活马医,仔细一步步调试程序发现在单语料文件很大时内存I/O开销很厉害的问题,经过优化后12分钟处理完总计1.08 GB 语料。