浏阳德塔软件开发有限公司, 430181198505250014
浏阳德塔软件开发有限公司, 430181198505250014
现在我在做的东西很多,今年8月1号之后会有2个版本,一个免费开源,我会继续写一辈子主要负责思维探索和实现。另外一个是商业版本。我会让我的融资伙伴们去全权负责,感叹自己的渺小,真没有那么多时间。
准备做行为训练
1800万是碰巧, 采样运行了100次,最低的一次是1650万, 挑战自己 ,按1650万算 .
划分 可以借鉴 英文 比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 .
deta可以设计一些区分 方法 比如 张柳是人名 , "张柳树下歇息", 可以 排版 为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者 认为 1上标号 宽间隔 最短. 2对比下划线等省油和 BIT 渲染 最少. 3书写时耗费时间最短. 4 .符号也短,但是.符号在中文中有句号和结尾 ,省略 的关键字意思 了.
DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进.
算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始, 1 快速混合缩写处理机. 2 繁体词汇的 补充. 家里2本老书2200页 5万多词汇, 怎么个录入法. 有很多字现在都删除了,只能在一些书法艺术作品中找到. 3 法语 俄语 德语 西语 和 其他 **混合字符号** 的 非 英语 切分 标准规范化. (先从法语 入手). 4...
不仅是人名词, deta通过1个月近700万字新闻 文章分析发现 一些缩写词' 同样没有词性逻辑可寻.
1大神计划持续中, 2悬赏 计划已经 结束. 德塔现在公布1500万优化方案 : 目前正在 正在 做词性语料字典录入系统.将每次 数万的字典匹配 变成12个小表分化 每次几百 . 预期 目标为1700万+. 2019年3月31日
2019/03/31 23点02分 世界记录再次刷新, 每秒1400万+纯中文分词!