Deta_Parser 关于中文中人名分析.

关于中文中人名分析.

Open yaoguangluo opened this issue 6 years ago • 5 comments

trafficstars

通过一段时间对中文的文学语法分析, 德塔统计出一个缺陷 . 人名在文章中的划分问题.

人的名字是由各种词性不同的单字组成, 如果通过算法分析, 会直接导致算法臃肿. 而如果通过人名词库,那么词库将大到数亿, 德塔推荐一种标准将人名字划分是有必要的.

May 08 '19 15:05 yaoguangluo

划分可以借鉴英文比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 .

May 08 '19 15:05 yaoguangluo

deta可以设计一些区分方法比如张柳是人名 , "张柳树下歇息", 可以排版为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者认为 1上标号宽间隔最短. 2对比下划线等省油和 BIT 渲染最少. 3书写时耗费时间最短. 4 .符号也短,但是.符号在中文中有句号和结尾 ,省略的关键字意思了.

May 08 '19 16:05 yaoguangluo

DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进.

May 08 '19 16:05 yaoguangluo

算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始, 1 快速混合缩写处理机. 2 繁体词汇的 <辞源> 补充. 家里2本老书2200页 5万多词汇, 怎么个录入法. 有很多字现在都删除了,只能在一些书法艺术作品中找到. 3 法语俄语德语西语和其他 混合字符号 的非英语切分标准规范化. (先从法语入手). 4 ...等...

May 11 '19 17:05 yaoguangluo

不仅是人名词, deta通过1个月近700万字新闻文章分析发现一些缩写词' 同样没有词性逻辑可寻.

May 25 '19 14:05 yaoguangluo

Deta_Parser Deta_Parser copied to clipboard

关于 中文 中 人名分析.

Deta_Parser
Deta_Parser copied to clipboard

关于中文中人名分析.