Jiajie Yan

https://www.linkedin.com/in/jiajieyan/ [email protected]

Los Angeles, California, United States A software engineer majored in computational linguistics, passionate about languages, NLP, ML, AI and text mining.

Results 9 comments of


                                            Jiajie Yan

你好我的毕业论文可能会使用你的开源项目，请问你有具体的论文可供引用吗

谢谢大家对这个项目的支持！引用项目的时候请注明**作者**、**项目名称**以及**项目地址**。具体参考的文献和网页有以下这些：【词库构建】 [http://www.matrix67.com/blog/archives/5044] [https://zhuanlan.zhihu.com/p/25499358] 【无监督分词】 [https://spaces.ac.cn/archives/3956] [https://blog.csdn.net/daniel_ustc/article/details/48223135] 【分句标点】（抱歉文献太多没办法逐一复制，所以截图放在这里）希望能有帮助！

你好我的毕业论文可能会使用你的开源项目，请问你有具体的论文可供引用吗

@caijie12138 你好，语言模型的语料是这个：https://github.com/garychowcmu/daizhigev20，经过了一些人工筛选和文本清洗。

关键词提取

好的，有空安排！

语料库

抱歉，目前没有公开熟语料的打算。项目里的数据有时候是内循环的，例如分词出来的结果可以用来做词性标注等。分句和自动标点的数据标注是天然的，训练的时候注意格式就行。

关于jiayan.klm

你好，klm文件是通过这个项目生成的 https://github.com/kpu/kenlm ，你可以用自己的数据生成这个语言模型文件。

您好，初学者想问问怎么查看模型的具体内容。。。。

你好，甲言使用的模型都是统计模型，而且大部分都是特定的格式，例如甲言用的crfsuite生成的模型只能它自己读取分析，kenlm生成的语言模型也只能由它自己读取分析，都涉及到特定的序列化方式和编码方式，因此一般是没有办法查看具体模型内容的，即使看到了，也很有可能是乱码。希望能有帮助。

您好，我可以用新語料重新生成模型嗎？

你好，如果是训练语言模型的话，完全没问题，可以直接用繁体语料进行训练。

词长

你好！非常理解你的考量。本项目之所以选择四字词为分词上限，是因为： 1. 古汉语的确单字成词的概率最高，四字成词低很多，但也并非不存在，例如《庄子》中“内圣外王”这样的词，还是适合四字成词； 2. 也有不少人名，由于先秦姓氏未经统一，存在大量两字复姓，以及官职地方等作为名字前缀，加上两字名，也会出现四字人名。 3. 再者，本项目的训练语料也并非只涵盖先秦，一直到明清都有所涉及，因此四字词的概率会随着时代变迁越来越多，例如各种地方、机构等专属名词。希望能有帮助！

请问方便告知，断句使用的是什么训练语料吗

你好！断句语料来自殆知阁语料中包含标点符号的文献语料，标点符号作为天然断句标记就行，不需要太多额外处理。希望能有帮助。