Deta_Parser
Deta_Parser copied to clipboard
关于 中文 中 人名分析.
通过一段 时间对中文的 文学语法分析, 德塔统计出一个缺陷 . 人名在文章 中的划分 问题.
人的名字是由各种词性不同的单字组成, 如果 通过算法分析, 会直接导致算法臃肿. 而如果通过人名 词库,那么词库将大到数亿, 德塔推荐一种 标准将人名字 划分 是有必要的.
划分 可以借鉴 英文 比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 .
deta可以设计一些区分 方法 比如 张柳是人名 , "张柳树下歇息", 可以 排版 为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者 认为 1上标号 宽间隔 最短. 2对比下划线等省油和 BIT 渲染 最少. 3书写时耗费时间最短. 4 .符号也短,但是.符号在中文中有句号和结尾 ,省略 的关键字意思 了.
DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进.
算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始, 1 快速混合缩写处理机. 2 繁体词汇的 <辞源> 补充. 家里2本老书2200页 5万多词汇, 怎么个录入法. 有很多字现在都删除了,只能在一些书法艺术作品中找到. 3 法语 俄语 德语 西语 和 其他 混合字符号 的 非 英语 切分 标准规范化. (先从法语 入手). 4 ...等...
不仅是人名词, deta通过1个月近700万字新闻 文章分析发现 一些缩写词' 同样没有词性逻辑可寻.