Hui Chen

Results 38 comments of Hui Chen

抱歉,实在没时间维护了

感谢你的建议,spark看上去很强大,我花时间研究一下。在Google待久了被内部的那套系统束缚住反而对开源界的好东西关注不足。 其实我在自己用go实现一个分布式任务调度系统,而且想在其上实现一套分布式文件存储和数据库,不过因为没多余时间所以进度及其缓慢。 让我花点时间研究一下再详细答复你。

看了下Spark,很强大,但感觉弥勒佛不适合走这条路。针对这个项目,可以有三种发展模式: 1. Docker + 自开发的一个轻量级并行调度系统 + 弥勒佛 RPC 服务器 2. Spark/gopark(或者什么其它的并行框架) + 弥勒佛 3. (这实际上不是一个选项,单纯为了比较列在这里)在Spark里实现一个分布式机器学习框架 和2相比1有下面的优势 - 1是一个纯GO的开发环境 - gopark不知道何时可以达到可用的程度 - 选项1里的那个轻量级调度系统也可以用在悟空引擎里面 - 弥勒佛未来的开发重点希望放在在线学习和神经网络上,走RPC服务这条路更灵活,Spark可能过于specialized了 - 2和3相比,2完全没有优势,而且Spark里的机器学习包也有人在开发 - 感觉1是最简洁的实现方式,Spark的优势在RDD和编程模型,但用在弥勒佛中有些overkill 总之Spark做分布式学习是很好的,但并不适合弥勒佛。这个项目刚刚起步,希望核心的东西还是逐步自我完善出来比较好,而不是照搬现有解决方案。否则未来over engineering可能会成为一个问题,而且一旦捆绑住想抽离就不容易了。

是直接拷贝了 jieba 的词库,你直接向词库里添加新词和词频即可,词频可以通过在你的语料中统计得到

三列分别是 词语、在训练语料中的词频、词性

你可以把你索引的文档类似的文档拿出来做语料,生成的字典再和这里提供的词典融合一下

@phproot 不是用mlf,你从语料中做文本匹配简单统计即可。

@brandyaptx 因为“中华人民共和国中央人民政府”是一个词,如果你不希望出现这个词可以从词典中删除,或者就像@shahuwang说的那样使用true选项,“中华人民共和国中央人民政府”会被分词为“中华人民共和国 / 中央人民政府”,而且这两词还可以被进一步拆分。见这里注释 https://github.com/huichen/sego/blob/master/token.go#L44 @shahuwang 是的,README.md中例子来自 https://github.com/huichen/sego/blob/master/tools/example.go ,需要指定完整路径。

@brandyaptx 分词结果实际上是个树状结构(见我上面给的链接),true选项打印的实际上是深度优先遍历的节点。如果你需要最细的分词,只要深度优先遍历时仅选择叶子节点即可。 另外,你的实际应用是什么?对搜索来说,所有的节点可能都是有用的。