Yanyi Wu comments

Results 111 comments of


                                            Yanyi Wu

最简的两段字符串进行比较，怎么弄？

Q：最简的两段字符串进行比较，怎么弄？ A：对这两段字符串计算出对应的simhash值，然后对比这两个simhash值。我猜你对simhash值的用法还不了解？你可以先去了解一下这个算法的原理和用途。详见 [simhash算法原理及实现](http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html) Q: 做一个简单的web服务? A: 这个可以有。我搞一个简单的 `simhash_server` 出来试试。

最简的两段字符串进行比较，怎么弄？

[simhash_server](https://github.com/yanyiwu/simhash_server)

不知道怎么用啊

@mejinke 主要的困惑是啥？

不知道怎么用啊

@BruceZhaoR simhash的值是一个64bit的int，示例里面显示的值是 17447883110520160081 ，而不是 "17447883110520160081" 字符串。

不知道怎么用啊

@BruceZhaoR 客气。主要看你的使用场景，和你处理的文本字符串长短，simhash的设计原理是针对新闻网页类长文本去重效果比较好。如果对于短文本，并不适合。

为什么与一个python版计算出来的结果不一样？

1. 计算出来的结果不一样是很正常的，你可以看一下simhash的原理就知道了。 2. c++的程序速度比python的快也是符合预期的。

为什么与一个python版计算出来的结果不一样？

你测试是把加载词典也算进去了吧，那当然慢了。发自我的 iPhone > 在 2017年6月14日，13:42，Donghua Lau 写道： > > 2.是您这个版本比python那个版本慢很多。当然我只是简单的测试了下。 > > — > You are receiving this because you commented. > Reply to this email directly, view it...

算法优化问题

这种短 query 的去重，simhash 不是那么准确，可以在 simhash 基础上面做二次去重吧。我 simhash 就当是初筛就好。不要完全依赖 simhash。

目前尝试使用了一下simhash做新闻的去重，有三个疑问，希望能帮助解答一下

1. 词频tf是每篇文章统计一下就行了，idf是通过jieba的词典拿到的，一般不需要更新词频。 2. 这段文本是有编码错误吧？编码请认准utf8编码 3. 若干文本是什么文本？短文本还是长文本？去重我建议不管用什么算法，都吃透那个算法的过程。因为算法总是有badcase，不理解的话很难查出badcase的原因。各种原因都有可能。

接收的字符长度又限制么？

应该没有，你试试。