Fukuball Lin
Fukuball Lin
https://github.com/fancyspeed/py-softmax
https://github.com/mnielsen/neural-networks-and-deep-learning/blob/master/src/network.py
http://neuralnetworksanddeeplearning.com/about.html
@isafe 這樣你要調整 idf.txt 裡面歡迎的權重值,目前最新版的 jieba 可以切換 idf 語料庫,這樣你就可以調整成你想要的權重值~ 不過建議 idf 的權重值應該還是要自己蒐集足夠量的文本之後計算出每個詞的 idf 權重值會比較客觀
@yukon12345 感謝建議,還是希望能幫忙發個 pull request,或者是等我晚些工作較不忙碌了再回來加入 cache 功能
@GlaryJoker 感謝,我把這個 issue 留著,讓大家可以參考一下作為一種 solution
@fapi-china 目前 idf 僅支援預設的兩種文件,如果可以的話歡迎幫忙修改可輸入客製文件並發 pull request.
@linhongzhao321 這樣看起來似乎是字典不斷在過程中被擴充,可以檢查一下使用方式為何會讓字典不斷擴大(比如印出 Array 的大小,基本上過程中不應該不斷擴大的)
通常 stop words 都是使用在關鍵字萃取的階段,如果要在分詞階段使用 stop words,使用者其實很容易可以處理,就是自己濾掉就可以了,因此分詞階段不會套用 stop words。
這個部分可能需要有人幫忙~