ucanuupnobb
ucanuupnobb copied to clipboard
【需求】词频脚本如何获知哪里是性能瓶颈
wm推荐:
https://jakevdp.github.io/PythonDataScienceHandbook/01.07-timing-and-profiling.html
ys: 复杂度分析 搜 big o notation
或是,不采用组合的形式,遍历一次全文,n个n个的分(可以重叠那种),这样外层的两个 for 就去掉了
我搜了十几个词频统计的脚本,csdn上的,都很简单。。。只有个别用到了jieba这种有先分词再统计的处理。
直接搜:性能优化,性能瓶颈,又很宽泛
感觉是个大坑。先做好心理建设再跳进去。
可能拿英文材料入门好一点,中文分词真是 hard mode,不调包感觉搞不定
我一直想写一个现象,就是对于编程小白来说,如何在遇到困难,但又不知道描述困难时,不依赖外界人力,自己逐步获知该问题的准确描述
虽然大部分人有伸手党、拿来主义的现象,不知道遇事先问搜索引擎,但也有很多人是完全不知道如何描述问题,或干脆把问题描述错了
哈哈,没事。我知道我的主线任务是什么。延伸的支线任务我先记着。