Hui Chen comments

Results 38 comments of


                                            Hui Chen

这个word2vec看上去很好玩啊，你的中文训练数据从哪里来的？wiki？我觉得对word2vec来说“中华人民共和国中央人民政府”分成一个词也许没问题，因为这个词并不常见，可能对模型影响不大。

@brandyaptx 没实际用过word2vec，也许可以当做topic model，用word2vec生成其它机器学习系统的输入feature，比如对新闻做clustering，或者根据用户阅读历史推荐新闻什么的。

操作系统，环境？

索引表放在内存中是为了方便查询，如果放在数据库会慢很多，你确定这是你想要的？

@csrgxtu wukong 最初是作为 **无状态微服务** 的核心搜索模块来设计的，全量数据保存在内存中，不做持久化存储，**可以随时重启服务**，并主要从网络数据库中更新全量和增量数据，建索引的瓶颈主要在网络 IO 的 latency。lucene 的优化方向并不是 wukong 的初衷。

一般是放在正排索引里，搜索返回的docid再去查找一次，比如例子 https://github.com/huichen/wukong/blob/master/examples/codelab/search_server.go#L120-L138

这个可能是小众需求，多数情况下，拿到docID再去外部存储取属性就好了，比如redis等。搜索引擎只负责索引和排序，不同的功能最好还是分开的好。

string的overhead太多，建议在引擎外部保存string到uint64的转换关系

@csrgxtu 这个是 data_node 的功能，我们内部版本已经基于 kubernetes 在开发分布式版本，也许将来会开源出来。

@csrgxtu 感谢支持！