Jiajie Yan
Jiajie Yan
谢谢大家对这个项目的支持! 引用项目的时候请注明**作者**、**项目名称**以及**项目地址**。具体参考的文献和网页有以下这些: 【词库构建】 [http://www.matrix67.com/blog/archives/5044] [https://zhuanlan.zhihu.com/p/25499358] 【无监督分词】 [https://spaces.ac.cn/archives/3956] [https://blog.csdn.net/daniel_ustc/article/details/48223135] 【分句标点】 (抱歉文献太多没办法逐一复制,所以截图放在这里) 希望能有帮助!
@caijie12138 你好,语言模型的语料是这个:https://github.com/garychowcmu/daizhigev20, 经过了一些人工筛选和文本清洗。
好的,有空安排!
抱歉,目前没有公开熟语料的打算。项目里的数据有时候是内循环的,例如分词出来的结果可以用来做词性标注等。分句和自动标点的数据标注是天然的,训练的时候注意格式就行。
你好,klm文件是通过这个项目生成的 https://github.com/kpu/kenlm ,你可以用自己的数据生成这个语言模型文件。
你好,甲言使用的模型都是统计模型,而且大部分都是特定的格式,例如甲言用的crfsuite生成的模型只能它自己读取分析,kenlm生成的语言模型也只能由它自己读取分析,都涉及到特定的序列化方式和编码方式,因此一般是没有办法查看具体模型内容的,即使看到了,也很有可能是乱码。希望能有帮助。
你好,如果是训练语言模型的话,完全没问题,可以直接用繁体语料进行训练。
你好!非常理解你的考量。本项目之所以选择四字词为分词上限,是因为: 1. 古汉语的确单字成词的概率最高,四字成词低很多,但也并非不存在,例如《庄子》中“内圣外王”这样的词,还是适合四字成词; 2. 也有不少人名,由于先秦姓氏未经统一,存在大量两字复姓,以及官职地方等作为名字前缀,加上两字名,也会出现四字人名。 3. 再者,本项目的训练语料也并非只涵盖先秦,一直到明清都有所涉及,因此四字词的概率会随着时代变迁越来越多,例如各种地方、机构等专属名词。 希望能有帮助!
你好!断句语料来自殆知阁语料中包含标点符号的文献语料,标点符号作为天然断句标记就行,不需要太多额外处理。希望能有帮助。