Hui Chen

Results 38 comments of Hui Chen

这个word2vec看上去很好玩啊,你的中文训练数据从哪里来的?wiki? 我觉得对word2vec来说“中华人民共和国中央人民政府”分成一个词也许没问题,因为这个词并不常见,可能对模型影响不大。

@brandyaptx 没实际用过word2vec,也许可以当做topic model,用word2vec生成其它机器学习系统的输入feature,比如对新闻做clustering,或者根据用户阅读历史推荐新闻什么的。

操作系统,环境?

索引表放在内存中是为了方便查询,如果放在数据库会慢很多,你确定这是你想要的?

@csrgxtu wukong 最初是作为 **无状态微服务** 的核心搜索模块来设计的,全量数据保存在内存中,不做持久化存储,**可以随时重启服务**,并主要从网络数据库中更新全量和增量数据,建索引的瓶颈主要在网络 IO 的 latency。lucene 的优化方向并不是 wukong 的初衷。

一般是放在正排索引里,搜索返回的docid再去查找一次,比如例子 https://github.com/huichen/wukong/blob/master/examples/codelab/search_server.go#L120-L138

这个可能是小众需求,多数情况下,拿到docID再去外部存储取属性就好了,比如redis等。 搜索引擎只负责索引和排序,不同的功能最好还是分开的好。

string的overhead太多,建议在引擎外部保存string到uint64的转换关系

@csrgxtu 这个是 data_node 的功能,我们内部版本已经基于 kubernetes 在开发分布式版本,也许将来会开源出来。