Huang Huang

Results 149 comments of Huang Huang

@hotoo 支持。可以考虑将词典库独立为一个单独的仓库,方便维护和反馈。 BTW, 我前段时间将字典独立成了一个单独的仓库(改为使用来自 Unihan Database 的数据): https://github.com/mozillazg/pinyin-data

@gumblex 感谢你提供的资料。我也要尽快把词库库建起来 😂

初始版本已经出来了:https://github.com/mozillazg/phrase-pinyin-data @gumblex 地球拼音中都是繁体字 😂

@yaoruyi 请问词库中每个词语有对应的拼音数据不(哪种格式的都行,只要能标明正确的声调信息就好)?如果没有词语对应的拼音数据的话,就跟我们的需求不相符,我们的需求是一起维护不同词语准确的拼音数据,而不是单纯的汉语分词库。

@onsunsl 目前不支持。关于训练功能你有什么建议吗?

@onsunsl 目前的办法是通过自定义词组库来解决这个问题: ```python >>> pinyin("中心") [['zhōng'], ['xīn']] >>> pinyin("重心") [['zhòng'], ['xīn']] >>> pinyin("情调来调整风格") [['qíng'], ['diào'], ['lái'], ['tiáo'], ['zhěng'], ['fēng'], ['gé']] >>> pinyin("调整风格") [['tiáo'], ['zhěng'], ['fēng'], ['gé']] >>> pinyin("调整") [['tiáo'], ['zhěng']]...

最近基于 [g2pW](https://github.com/GitYCC/g2pW) 这个项目封装了一个使用机器学习技术支持模型训练的版本,感兴趣的话,可以试一下:https://github.com/mozillazg/pypinyin-g2pW

@onsunsl 谢谢你的建议!这个功能不是这个模块的目标,应该是另一个模块来实现这个功能。

1234号 这里的 `1234` 应该是 `yi er san si` 还是 `yi qian er bai san shi si` 这个不好判断吧?

@zhuangh @onsunsl 这里有个问题不好判断: 1234 应该是 `yi er san si` 还是 `yi qian er bai san shi si` 目前想实现的话,可以通过自定义 `errors` 函数的方式: ```python In [1]: from pypinyin import lazy_pinyin In [2]: def...