Hui Chen comments

Results 38 comments of


                                            Hui Chen

项目已死？

抱歉，实在没时间维护了

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

感谢你的建议，spark看上去很强大，我花时间研究一下。在Google待久了被内部的那套系统束缚住反而对开源界的好东西关注不足。其实我在自己用go实现一个分布式任务调度系统，而且想在其上实现一套分布式文件存储和数据库，不过因为没多余时间所以进度及其缓慢。让我花点时间研究一下再详细答复你。

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

看了下Spark，很强大，但感觉弥勒佛不适合走这条路。针对这个项目，可以有三种发展模式： 1. Docker + 自开发的一个轻量级并行调度系统 + 弥勒佛 RPC 服务器 2. Spark/gopark（或者什么其它的并行框架） + 弥勒佛 3. （这实际上不是一个选项，单纯为了比较列在这里）在Spark里实现一个分布式机器学习框架和2相比1有下面的优势 - 1是一个纯GO的开发环境 - gopark不知道何时可以达到可用的程度 - 选项1里的那个轻量级调度系统也可以用在悟空引擎里面 - 弥勒佛未来的开发重点希望放在在线学习和神经网络上，走RPC服务这条路更灵活，Spark可能过于specialized了 - 2和3相比，2完全没有优势，而且Spark里的机器学习包也有人在开发 - 感觉1是最简洁的实现方式，Spark的优势在RDD和编程模型，但用在弥勒佛中有些overkill 总之Spark做分布式学习是很好的，但并不适合弥勒佛。这个项目刚刚起步，希望核心的东西还是逐步自我完善出来比较好，而不是照搬现有解决方案。否则未来over engineering可能会成为一个问题，而且一旦捆绑住想抽离就不容易了。

请问sego的词库是不是有什么工具生成的?想对目前的词库进行扩容.

是直接拷贝了 jieba 的词库，你直接向词库里添加新词和词频即可，词频可以通过在你的语料中统计得到

请问sego的词库是不是有什么工具生成的?想对目前的词库进行扩容.

三列分别是词语、在训练语料中的词频、词性

请问sego的词库是不是有什么工具生成的?想对目前的词库进行扩容.

@phproot 语料库中简单的出现次数的统计

请问sego的词库是不是有什么工具生成的?想对目前的词库进行扩容.

你可以把你索引的文档类似的文档拿出来做语料，生成的字典再和这里提供的词典融合一下

请问sego的词库是不是有什么工具生成的?想对目前的词库进行扩容.

@phproot 不是用mlf，你从语料中做文本匹配简单统计即可。

例子好像有问题：“中华人民共和国中央人民政府”被分成了一个词

@brandyaptx 因为“中华人民共和国中央人民政府”是一个词，如果你不希望出现这个词可以从词典中删除，或者就像@shahuwang说的那样使用true选项，“中华人民共和国中央人民政府”会被分词为“中华人民共和国 / 中央人民政府”，而且这两词还可以被进一步拆分。见这里注释 https://github.com/huichen/sego/blob/master/token.go#L44 @shahuwang 是的，README.md中例子来自 https://github.com/huichen/sego/blob/master/tools/example.go ，需要指定完整路径。

例子好像有问题：“中华人民共和国中央人民政府”被分成了一个词

@brandyaptx 分词结果实际上是个树状结构（见我上面给的链接），true选项打印的实际上是深度优先遍历的节点。如果你需要最细的分词，只要深度优先遍历时仅选择叶子节点即可。另外，你的实际应用是什么？对搜索来说，所有的节点可能都是有用的。