simhash
simhash copied to clipboard
不知道怎么用啊
不知道怎么用啊
@mejinke 主要的困惑是啥?
@yanyiwu 计算得到了一串simhash值 为"17447883110520160081" ,看了您的博客,不是应该转为01的fingerprint吗?
@BruceZhaoR simhash的值是一个64bit的int,示例里面显示的值是 17447883110520160081 , 而不是 "17447883110520160081" 字符串。
@yanyiwu 您真是回复神速 :+1: 这个值 "17447883110520160081" 确实可以转为64 bit的01.
如果您有时间的话,可以帮我解答一个问题吗? :blush: 现有几千条文本字符串,有的字符串表达的是一个意思,要去重。 我的解决方案:jieba分词,提取关键字,得到simhash值,然后直接distinct。感觉效果并不好。
请问您有什么建议吗?
@BruceZhaoR 客气。 主要看你的使用场景,和你处理的文本字符串长短,simhash的设计原理是针对新闻网页类长文本去重效果比较好。 如果对于短文本,并不适合。
我处理的确实就是短文本,具体内容是 ‘活动地点’,由于每个人的填法不一样,所以就为统计造成了麻烦 :sob:
本来是想 两两计算hamm_distance 定一个阈值,但是感觉计算量好大的样子。 然后去看了将64bit拆成4块来做索引,感觉目前自己的水平完全实现不了。。
请问您有什么好的建议吗?
This issue has not been updated for over 5 years and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.
This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.