python-pinyin icon indicating copy to clipboard operation
python-pinyin copied to clipboard

共建为拼音服务的字典、词典库

Open hotoo opened this issue 8 years ago • 9 comments

拼音库主要依赖的是拼音字典、词典(后面简称“词典”),这个词典共用性很高,但由于词典库较大,出现问题的概率的也高。

建议大家一起共建、共同维护这个词典,你们觉得怎么样? #41 #42

cc @mozillazg

hotoo avatar May 11 '16 09:05 hotoo

@hotoo 支持。可以考虑将词典库独立为一个单独的仓库,方便维护和反馈。

BTW, 我前段时间将字典独立成了一个单独的仓库(改为使用来自 Unihan Database 的数据): https://github.com/mozillazg/pinyin-data

mozillazg avatar May 11 '16 13:05 mozillazg

可以参考「地球拼音」的词典? https://github.com/rime/brise/blob/master/preset/terra_pinyin.dict.yaml

gumblex avatar Sep 22 '16 15:09 gumblex

@gumblex 感谢你提供的资料。我也要尽快把词库库建起来 😂

mozillazg avatar Sep 23 '16 13:09 mozillazg

初始版本已经出来了:https://github.com/mozillazg/phrase-pinyin-data @gumblex 地球拼音中都是繁体字 😂

mozillazg avatar Mar 05 '17 00:03 mozillazg

可以转啊

gumblex avatar Mar 06 '17 00:03 gumblex

@hotoo @gumblex 请问python-pinyin如何批量处理?

运行环境 操作系统:Windows10 Python 版本:python-3.4.3 pypinyin 版本:v0.33.0

我有一个文本文件b.txt,utf-8格式,文件里面有内容: 这个 进行 因为 还是 时候 看到 …… 想把转换成汉语拼音,该如何操作?

能批处理、拖叠文件等一步到位吗? 指教一下吧!谢!

zgdlime avatar Sep 01 '18 12:09 zgdlime

@mozillazg 您好,我想问一下,我手头有一个中文分词分好的词库,如何转成有带声调拼音的,这样就可以合并到拼音词库里了。有类似工具吗。

yaoruyi avatar Nov 13 '20 05:11 yaoruyi

@yaoruyi 请问词库中每个词语有对应的拼音数据不(哪种格式的都行,只要能标明正确的声调信息就好)?如果没有词语对应的拼音数据的话,就跟我们的需求不相符,我们的需求是一起维护不同词语准确的拼音数据,而不是单纯的汉语分词库。

mozillazg avatar Nov 13 '20 13:11 mozillazg

@yaoruyi 请问词库中每个词语有对应的拼音数据不(哪种格式的都行,只要能标明正确的声调信息就好)?如果没有词语对应的拼音数据的话,就跟我们的需求不相符,我们的需求是一起维护不同词语准确的拼音数据,而不是单纯的汉语分词库。

拼音有就是不带声调的,哈哈。

lanyanguang32 avatar Dec 29 '20 12:12 lanyanguang32