simhash icon indicating copy to clipboard operation
simhash copied to clipboard

不知道怎么用啊

Open mejinke opened this issue 9 years ago • 7 comments

不知道怎么用啊

mejinke avatar Mar 31 '15 09:03 mejinke

@mejinke 主要的困惑是啥?

yanyiwu avatar Mar 31 '15 11:03 yanyiwu

@yanyiwu 计算得到了一串simhash值 为"17447883110520160081" ,看了您的博客,不是应该转为01的fingerprint吗?

BruceZhaoR avatar Mar 23 '16 07:03 BruceZhaoR

@BruceZhaoR simhash的值是一个64bit的int,示例里面显示的值是 17447883110520160081 , 而不是 "17447883110520160081" 字符串。

yanyiwu avatar Mar 23 '16 07:03 yanyiwu

@yanyiwu 您真是回复神速 :+1: 这个值 "17447883110520160081" 确实可以转为64 bit的01.

如果您有时间的话,可以帮我解答一个问题吗? :blush: 现有几千条文本字符串,有的字符串表达的是一个意思,要去重。 我的解决方案:jieba分词,提取关键字,得到simhash值,然后直接distinct。感觉效果并不好。

请问您有什么建议吗?

BruceZhaoR avatar Mar 23 '16 07:03 BruceZhaoR

@BruceZhaoR 客气。 主要看你的使用场景,和你处理的文本字符串长短,simhash的设计原理是针对新闻网页类长文本去重效果比较好。 如果对于短文本,并不适合。

yanyiwu avatar Mar 23 '16 07:03 yanyiwu

我处理的确实就是短文本,具体内容是 ‘活动地点’,由于每个人的填法不一样,所以就为统计造成了麻烦 :sob:

本来是想 两两计算hamm_distance 定一个阈值,但是感觉计算量好大的样子。 然后去看了将64bit拆成4块来做索引,感觉目前自己的水平完全实现不了。。

请问您有什么好的建议吗?

BruceZhaoR avatar Mar 23 '16 08:03 BruceZhaoR

This issue has not been updated for over 5 years and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.

github-actions[bot] avatar Sep 07 '24 13:09 github-actions[bot]

This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.

github-actions[bot] avatar Sep 20 '24 13:09 github-actions[bot]