Wat Lim

Results 7 comments of Wat Lim

> 但是当年我录完《潮州音字典》后已无精力再录入第二本字典了,所以暂时付诸阙如。 工作量一定好大,非常感謝! 你公開[dicionary.tsv](https://github.com/Kahaani/dieghv/commit/cb3f92b8674676f2976e3002a717d3b338016ed1)的時候我就注意到。個人感覺`dicionary.tsv`做爲原始數據來儲存字庫和讀音好好,但是做爲維護輸入法來講存在一撮問題: 1. 對想參與項目的人,可讀性不強。 1. 如果想加入一個字或者讀音只能修改各個`.dict.yaml`文件(比如[這個commit](https://github.com/Kahaani/dieghv/commit/bc29ff236c2a23339ba6077fd31be3cd447e54b7)),因爲`dictionary.tsv`是《潮州音字典》原始數據,直接修改不合適。 1. 對無收錄在《潮州音字典》的讀音,無變統一管理。 1. 只有字,無詞。所以加新詞還是需要修改全部`.dict.yaml`文件(比如[這個commit](https://github.com/Kahaani/dieghv/commit/531225897cf197288c6a374ad1540f48aa07142b))。 根據你的描述,如果將來有新個字典加入,這個項目會存在多個`dictionary.tsv`文件。那是否可以通過寫個腳本來讀取全部tsv文件來生成一個`dictionary.yaml`,然後再對這個文件進行需要的修改(比如加入缺少字音,詞組),最後再生成各個`.dict.yaml`文件呢?以後如果有補充字詞,只需要修改`dictionary.yaml`就好了。 我非常樂意相互這個工作。

感謝回覆! > 这里「相互」应该是「相辅」吧。 多謝指正!因爲「相辅」打無。 > 而不是现在这样见一个收一个,也就避免了「零散」造成的问题。 我個想法是「零散」收錄反而是好事: 1. 錄入整本字典工作量大,更新週期長,無法及時收錄實際使用中常用,但是打無的字,比如這句話的長只有「ciang」,但是日常更常用的[deng」就打無。個人感覺應該優先收錄常用讀音、字詞,而唔是錄入整本字典。因爲輸入法做爲一個工具,應該以方便使用爲主。所以,是否可以爲收錄使用過程中發現打無個字提供方便? 1. 字典收錄的更多是字音。潮語專有的用詞,地名還是需要人工錄入。同樣,實際使用中發現一個補一個最好。 1. 字典雖然權威,但是出版週期長,比如現在用的《潮州音字典》是1957年出版的。即使這個項目有足夠人手相輔來錄入全部字典的數據,但是如果只依賴字典,無愛零散收錄,一撮字詞還是打無。 > 更理想的情况是录入多本字典。多个.tsv文件按一定的混合规则生成.dict.yaml,似乎也不需要一个dictionary.yaml。 字典的`.tsv`的格式只有變放字,無變放詞。直接用字典生成`.dict.yaml`不實際。如果全部用`.tsv`也是好,就是再用個`.tsv`來放詞,也就是等同於一個`dictionary.yaml`。`dictionary.yaml`只是一個想法,我認爲,需要在字典和`.dict.yaml`之間加個中間層來解決問題。 > 按我的理解,dictionary.yaml的好处在于:方便管理零散的补充数据,以及众包(由各地网友提供各地读音)。但我对网上资料的质量没有信心。BTW:纸质字典的质量也是参差不齐,不是每一本都足够严谨。 這就是`dictionary.yaml`起到的作用,可以做爲測試來糾錯。我認爲項目應該收錄多種來源的資料,核對後採納。 > 还有一种情况,是系统性补收字音,比如: c9468be 和 8fcb04b 我就是想如何減輕這種工作,並且錯誤率更低。 > 或许可以等到补丁更多、问题更加明显、需求更加清楚的时候,再来设计一种管理数据的格式。 如果感覺當前的管理數據格式已經不符合實際,可以再設計一種,然後遷移過去。

我認爲輸入法首要是實用性。如果使用時候發現有錯誤可以改正?

我非常理解和感謝kahaani在正字正音方面的努力。我的建議是考慮將詞庫和輸入法分開維護來平衡準確和實用性。比如用如下格式來儲存詞庫 * 字 * 讀音 (repeated) * 音標 * 地區 (repeated) * 文白讀 * 備註 (比如出處)

> 在码表中,饶平有单元音韵母 v 和鼻尾韵 vng 但是在饒平碼表中腸是dng5,但是斤是gvng1? > 如今揭阳话、潮阳话可能已经产生了 vng 我爲此問了幾個潮陽的朋友。是否可以考慮將vng加爲ng的模糊音方便使用?

@kahaani 请问这2行是想做乜事? https://github.com/kahaani/dieghv/blob/1709bb786a144de7be2229755011fde9034457de/60/suantau_60.schema.yaml#L65 https://github.com/kahaani/dieghv/blob/1709bb786a144de7be2229755011fde9034457de/60/suantau_60.schema.yaml#L114