Yanyi Wu

Results 111 comments of Yanyi Wu

Q: 最简的两段字符串进行比较,怎么弄? A: 对这两段字符串计算出对应的simhash值,然后对比这两个simhash值。 我猜你对simhash值的用法还不了解?你可以先去了解一下这个算法的原理和用途。详见 [simhash算法原理及实现](http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html) Q: 做一个简单的web服务? A: 这个可以有。我搞一个简单的 `simhash_server` 出来试试。

[simhash_server](https://github.com/yanyiwu/simhash_server)

@mejinke 主要的困惑是啥?

@BruceZhaoR simhash的值是一个64bit的int,示例里面显示的值是 17447883110520160081 , 而不是 "17447883110520160081" 字符串。

@BruceZhaoR 客气。 主要看你的使用场景,和你处理的文本字符串长短,simhash的设计原理是针对新闻网页类长文本去重效果比较好。 如果对于短文本,并不适合。

1. 计算出来的结果不一样是很正常的,你可以看一下simhash的原理就知道了。 2. c++的程序速度比python的快也是符合预期的。

你测试是把加载词典也算进去了吧,那当然慢了。 发自我的 iPhone > 在 2017年6月14日,13:42,Donghua Lau 写道: > > 2.是您这个版本比python那个版本慢很多。当然我只是简单的测试了下。 > > — > You are receiving this because you commented. > Reply to this email directly, view it...

这种短 query 的去重,simhash 不是那么准确,可以在 simhash 基础上面做二次去重吧。我 simhash 就当是初筛就好。不要完全依赖 simhash。

1. 词频tf是每篇文章统计一下就行了,idf是通过jieba的词典拿到的,一般不需要更新词频。 2. 这段文本是有编码错误吧?编码请认准utf8编码 3. 若干文本是什么文本?短文本还是长文本?去重我建议不管用什么算法,都吃透那个算法的过程。 因为算法总是有badcase,不理解的话很难查出badcase的原因。各种原因都有可能。

应该没有,你试试。