Tenda Huang

Results 19 comments of Tenda Huang

「崖」字属于无条件的异读,但有些多音字是区分场合的,就不适合自动注音。 比如明月拼音的码表: ``` 長 chang 60.26% 長 zhang 39.74% 縣長 xian zhang ``` 如果任由其自动注音,会造成: ``` > xian chang 1. 县长 2. 现场 ```

@jakwings 误会了。「丑」和「醜」是两个不同的字,但是简化后的字形合一,也即标题所说的「一简对多繁」。「丑」字用于「子丑寅卯」、「生旦淨末丑」等词;「醜」字用于「醜陋」、「醜聞」等词。在这种方言里这两个字确实不同音,打`tiu`的时候不可以显示「醜」字。

谢谢你的建议。目前项目中的`dictionary.tsv`([链接](https://github.com/Kahaani/dieghv/blob/master/dictionary.tsv))承担了这个功能。 把你举的几个例子再简化一下格式: ``` (潮,die,[dieziu,tenghai]) (潮,dio,[suantau,riaupeng,gekion,dioion]) (分,hung,[all]) (分,bung,[all]) (食飯,ziah bung,[all]) ``` 其实就相当于`dictionary.tsv`的内容。字典文件`dictionary.tsv`是我当初录入《潮州音字典》的原始数据,码表文件`.dict.yaml`中的「字典字音」部分([这里有介绍](https://github.com/Kahaani/dieghv/issues/4#issuecomment-284152740))就是由它生成的。对字典文件的修改会更新到各个码表文件,比如[这个commit](https://github.com/Kahaani/dieghv/commit/389de2663c111271612d4e0411c104fcf6dcd87c)。 至于文白异读漏收,其实是吴华重《潮州音字典》的问题。后来根据张晓山《新潮汕字典》零散地补收了一些字音和词语,仅限于潮州和汕头两地,原因在[这里也有说明](https://github.com/Kahaani/dieghv/issues/4#issuecomment-284152740)。 解决这个问题可以考虑加入更多字典。比如李新魁的《普通话潮汕方言常用字典》,这本字典收录的方言点更多,文白异读也更全面([介绍](https://kahaani.github.io/gatian/chapter1/section06.html))。但是当年我录完《潮州音字典》后已无精力再录入第二本字典了,所以暂时付诸阙如。

> 我非常樂意相互這個工作。 这里「相互」应该是「相辅」吧。 感谢对项目的工作流程提出意见。下面是我的想法。 目前的模式比较简单,仅仅是零散地补录两个方言点,增加一个`dictionary.yaml`似乎好处不大。 理想的情况是录入整本《新潮汕字典》(包括字头和词条,最好还能包括释义中的例词),而不是现在这样见一个收一个,也就避免了「零散」造成的问题。 更理想的情况是录入多本字典。多个`.tsv`文件按一定的混合规则生成`.dict.yaml`,似乎也不需要一个`dictionary.yaml`。 按我的理解,`dictionary.yaml`的好处在于:方便管理零散的补充数据,以及众包(由各地网友提供各地读音)。但我对网上资料的质量没有信心。BTW:纸质字典的质量也是参差不齐,不是每一本都足够严谨。 还有一种情况,是系统性补收字音,比如:https://github.com/Kahaani/dieghv/commit/c9468be8d5b4bfd6415a6d14f41f5d176859c0ba 和 https://github.com/Kahaani/dieghv/commit/8fcb04ba3d31b0c9f2d4713e8a6186623b8aac22 或许可以等到补丁更多、问题更加明显、需求更加清楚的时候,再来设计一种管理数据的格式。 不过,仍然欢迎对整个流程进行讨论或试验。

> https://www.mogher.com/baike 我发现这里有一个 在线的潮汕词典 未来有没有可能把里面的词导入到输入法里面? 谢谢你的关注和意见。如之前的讨论所说,我担心网上资料的质量。高质量的词条需要花费苦功录入方言书籍。

将潮典词汇表应用于输入法,有以下几个问题: 1. 尽管部分词条做了分类(如时间、人称、地名等),总体而言并不系统、全面。 2. 很多词条是普通话同形词,潮汕话没有特殊词形或字音,这种情况下可以通过 Rime 的自带词库和组词能力解决。 3. 本字的处理不妥当、不一致。 4. 部分词条的注音、繁简有瑕疵。 总之质量还是不够好。 另外,潮典词汇表默认是潮州音,但部分词条标注了揭阳音或潮阳音,ciskonc 导入过程中遗漏掉了。

谢谢你的关注。 是这样的,每个`.dict.yaml`文件都有三个部分: ``` # 字典字音,按音序檢字表排列 # 增補字音,按字母序排列 # 增補詞語,按字母序排列 ``` 第一部分录自吴华重版《潮州音字典》,各地口音都有。但是这本字典漏收不少读音,尤其是文白异读。 第二、三部分依据张晓山版《新潮汕字典》补收,但这本字典只有潮州、汕头两地口音。你所找出的差异都来自这里。其他口音缺乏比较好的字典资料(揭阳音稍好),所以没有更新。

谢谢你的支持! brise近期做了一次重构,被拆分成多个独立的代码库。会关注其进展,看看能否加入其中,但近期没有计划。

> 潮州,汕頭,澄海拼音方案有元音v [ɤ]。但是潮陽,揭陽,饒平拼音方案無。 这个说法并不准确。在码表中,饶平有单元音韵母 v 和鼻尾韵 vng;揭阳有 v 无 vng;潮阳无 v 也无 vng。 > 例如腸在潮州,汕頭,澄海拼音方案爲dvng5,但是在潮陽,揭陽,饒平拼音方案爲dng5?! 之所以这样处理,是为了照顾《潮州音字典》(1957)的分韵。码表中是这样赋值的: 韵母的代表字|秧|恩|因 --|--|--|-- 潮州、汕头、澄海|ng/vng|-|+ 饶平|ng|vng|+ 揭阳|ng|-|eng 潮阳|ng|-|ing 如果对 dng5 这样的音节感到奇怪,可以查看张盛裕先生在60年代调查潮阳棉城话的相关论文。 当然,吴华重的《潮州音字典》和张盛裕的论文记录的是几十年前的方音。如今揭阳话、潮阳话可能已经产生了 vng,饶平话也未必保留 ng 和 vng...