OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

請教 opencc_phrase_extract 的用法

Open doggy8088 opened this issue 3 months ago • 0 comments

OpenCC 有內建一個 opencc_phrase_extract 工具,因為找不到文件,不太確定用法。

我嘗試用以下命令分析 test\benchmark\zuozhuan.txt 檔案,得到以下詞頻:

opencc_phrase_extract -o G:\zuozhuan.stats.txt -- G:\zuozhuan.txt
请求 450 -7.92801 6.196 8.46437 4.06399 4.40038
进攻 450 -7.92801 6.32893 7.79145 3.96637 3.82508
自己 373 -8.11568 6.63321 8.2558 4.40675 3.84905
作为 360 -8.15115 5.04801 9.17502 4.75278 4.42223
准备 310 -8.30068 7.50026 7.68159 3.32492 4.35667
攻打 303 -8.32352 6.33506 8.10207 3.90545 4.19662
将要 276 -8.41685 5.03276 8.05812 3.76809 4.29003

想請問這裡的每一個欄位分別代表什麼意思?我大概看的懂前兩個,第一個是比對到的詞,第二個欄位是在文章中出現的次數,後面就不知道了。是否有參考文章可以提供進一步瞭解?謝謝。

doggy8088 avatar Apr 07 '24 15:04 doggy8088