phrase-pinyin-data icon indicating copy to clipboard operation
phrase-pinyin-data copied to clipboard

共建为拼音服务的词典库

Open mozillazg opened this issue 7 years ago • 22 comments

@hotoo

拼音库主要依赖的是拼音字典、词典(后面简称“词典”),这个词典共用性很高,但由于词典库较大,出现问题的概率的也高。

建议大家一起共建、共同维护这个词典,你们觉得怎么样? refer: https://github.com/mozillazg/python-pinyin/issues/43

字典在 https://github.com/mozillazg/pinyin-data

原始数据基于 https://github.com/hotoo/pinyin/blob/master/data/phrases-dict.js

数据格式:

{词语}: {音} {音}

一行一个词语的读音,有多个音的词语可以再重复一行:

朝阳: cháo yáng
朝阳: zhāo yáng

完善数据参考资料:

mozillazg avatar Sep 12 '16 13:09 mozillazg

赞。其实现在还有个问题是可以按照词库词语分词的算法工具。

hotoo avatar Sep 12 '16 21:09 hotoo

@hotoo 没明白你所说的问题。能麻烦详细讲讲吗?

mozillazg avatar Sep 13 '16 14:09 mozillazg

我想要一个可以根据 成语、原子词语 分词的工具。现在很多分词工具都太智能了,能联想很长一串短语,不适合作为拼音的分词工具。

hotoo avatar Sep 13 '16 15:09 hotoo

@hotoo 嗯,确实需要一个这样的分词库。 现在的分词工具确实是会分出来一些不是词语的短语。

mozillazg avatar Sep 19 '16 15:09 mozillazg

这个怎么配置pinyin库使用? 另:我这有部分多字库怎么提供这儿。

onsunsl avatar Mar 13 '17 07:03 onsunsl

这个词库怎么使用

onsunsl avatar Mar 13 '17 08:03 onsunsl

@onsunsl 提 PR 就可以了。我会定期基于这个仓库的数据更新 pypinyin 模块,然后直接使用更新后的 pypinyin 模块就可以了。

mozillazg avatar Mar 13 '17 15:03 mozillazg

我的格式和你的不一样 git不会用,你先给我email我给你发过去,你转一下再并合吧,这样快点。

onsunsl avatar Mar 14 '17 01:03 onsunsl

@onsunsl 为了防垃圾邮件我就不直接贴邮箱地址了,https://github.com/mozillazg 这个页面的头像下面有我的邮箱,麻烦你看一下。

mozillazg avatar Mar 14 '17 12:03 mozillazg

发邮件了

onsunsl avatar Mar 15 '17 07:03 onsunsl

@onsunsl 谢谢!邮件已收到,我会尽快抽空更新一下。

mozillazg avatar Mar 15 '17 13:03 mozillazg

楼主,我提供的词库什么时候能更新pypinyin里?

onsunsl avatar Mar 22 '17 11:03 onsunsl

@onsunsl 稍等,我晚上更新一个版本。

mozillazg avatar Mar 22 '17 12:03 mozillazg

@onsunsl 已更新,麻烦更新到最新版本的 pypinyin。

mozillazg avatar Mar 22 '17 13:03 mozillazg

好的,谢谢,你把pipy包也更新一下吧

onsunsl avatar Mar 23 '17 03:03 onsunsl

@onsunsl PyPI 包当时就已经更新了:https://pypi.python.org/pypi/pypinyin

mozillazg avatar Mar 23 '17 14:03 mozillazg

更新之后的版本我测试了一下,还有2198个词不一样(用pypinyin与我提供的词库拼音一致)

onsunsl avatar Mar 27 '17 03:03 onsunsl

@onsunsl 应该是有 2198 个词没有被 jieba 识别为词组。

mozillazg avatar Mar 27 '17 13:03 mozillazg

@onsunsl 还有就是有些 儿'r'的音我转换为了: 儿'er':

哪儿: nǎr -> 哪儿: nǎ er

mozillazg avatar Mar 27 '17 13:03 mozillazg

不会用 PR, load_phrases_dict({'了别': [['liǎo'], ['bié']]}) 了别: liǎo, bié

menghuanpy avatar Feb 17 '21 14:02 menghuanpy

@menghuanpy 感谢分享~

mozillazg avatar Feb 18 '21 13:02 mozillazg

感谢您提供这么好的平台。

我们是处理一些佛教方面的文字。佛教在许多字词上发音跟普通的文字发音差别很大。

阿阇黎  ā shé lí  (zdic ) 了别 : 应该是 liao bie, zdic 也有错。根据了字的意思看(了liǎo ㄌㄧㄠˇ 明白,知道:明~。一目~然。完结,结束:完~。~结。 了le  ㄌㄜ放在动词或形容词后,表示动作或变化已经完成:写完~。助词,用在句子末尾或句中停顿的地方,表示变化,表示出现新的情况:刮风~。),显然是 liao,我们读音和听法师讲法都是 liao 音。 了义: liao yi ,跟上一条一样的道理。 摩登伽: mo deng qie,伽 zdic 做 jia 音,应该不对。qie 音,注释是 伽 qié (1) (形声。从人,加声。翻译佛经多用为人名,故从“人”)。 僧伽 也是 qie 音。

------------------ 原始邮件 ------------------ 发件人: "mozillazg/phrase-pinyin-data" <[email protected]>; 发送时间: 2021年2月18日(星期四) 晚上9:52 收件人: "mozillazg/phrase-pinyin-data"<[email protected]>; 抄送: "郑卫斌"<[email protected]>;"Mention"<[email protected]>; 主题: Re: [mozillazg/phrase-pinyin-data] 共建为拼音服务的词典库 (#1)

@menghuanpy 感谢分享~

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

menghuanpy avatar Feb 18 '21 23:02 menghuanpy