Wat Lim
Wat Lim
關於字典維護的建議
現在的項目分做潮州,潮陽,揭陽,饒平,汕頭,澄海六個字典,人工維護難以保證更新同步。而且好多字只有文讀,無白讀,比如上一句話中,分(hung,bung),多(do,zoi)。我認爲可以建立一個 dictionary.yaml,每一個字詞以以下形式儲存: characters: 潮: dieziu: die dioion: dio gekion: dio riaupeng: dio suantau: dio tenghai: die 分: dieziu: [hung, bung] dioion: [hung, bung] gekion: [hung, bung] riaupeng: [hung, bung] suantau:...
在增加詞庫的時候發現這個問題。潮州,汕頭,澄海拼音方案有元音v [ɤ]。但是潮陽,揭陽,饒平拼音方案無。 另查潮陽話中元音v [ɤ]由u [u]代替,但是例如腸在潮州,汕頭,澄海拼音方案爲dvng5,但是在潮陽,揭陽,饒平拼音方案爲dng5?!
感覺潮州,汕頭,澄海,饒平,潮陽,揭陽6個字典收錄個字唔平多,比如常用個“唔”字只有潮州汕頭拍有。所以寫了個diff工具看下各個版本到底炒了乜字。 節令:{'dieziu.dict.yaml': ['zoih4 leng6'], 'suantau.dict.yaml': ['zoih4 leng6']} 明年:{'dieziu.dict.yaml': ['me5 ni5'], 'suantau.dict.yaml': ['me5 ni5']} 雨遮:{'dieziu.dict.yaml': ['hou6 zia1'], 'suantau.dict.yaml': ['hou6 zia1']} 宂:{'gekion.dict.yaml': ['riong2'], 'dioion.dict.yaml': ['riong2']} 什麽:{'dieziu.dict.yaml': ['sim6 moh4'], 'suantau.dict.yaml': ['sim6 moh4']} 什麼:{'dieziu.dict.yaml':...