Deta_Parser icon indicating copy to clipboard operation
Deta_Parser copied to clipboard

关于 中文 中 人名分析.

Open yaoguangluo opened this issue 5 years ago • 5 comments

通过一段 时间对中文的 文学语法分析, 德塔统计出一个缺陷 . 人名在文章 中的划分 问题.

人的名字是由各种词性不同的单字组成, 如果 通过算法分析, 会直接导致算法臃肿. 而如果通过人名 词库,那么词库将大到数亿, 德塔推荐一种 标准将人名字 划分 是有必要的.

yaoguangluo avatar May 08 '19 15:05 yaoguangluo

划分 可以借鉴 英文 比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 .

yaoguangluo avatar May 08 '19 15:05 yaoguangluo

deta可以设计一些区分 方法 比如 张柳是人名 , "张柳树下歇息", 可以 排版 为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者 认为 1上标号 宽间隔 最短. 2对比下划线等省油和 BIT 渲染 最少. 3书写时耗费时间最短. 4 .符号也短,但是.符号在中文中有句号和结尾 ,省略 的关键字意思 了.

yaoguangluo avatar May 08 '19 16:05 yaoguangluo

DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进.

yaoguangluo avatar May 08 '19 16:05 yaoguangluo

算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始, 1 快速混合缩写处理机. 2 繁体词汇的 <辞源> 补充. 家里2本老书2200页 5万多词汇, 怎么个录入法. 有很多字现在都删除了,只能在一些书法艺术作品中找到. 3 法语 俄语 德语 西语 和 其他 混合字符号 的 非 英语 切分 标准规范化. (先从法语 入手). 4 ...等...

yaoguangluo avatar May 11 '19 17:05 yaoguangluo

不仅是人名词, deta通过1个月近700万字新闻 文章分析发现 一些缩写词' 同样没有词性逻辑可寻.

yaoguangluo avatar May 25 '19 14:05 yaoguangluo