simhash
simhash copied to clipboard
算法优化问题
hi, 以下两个语句,取top32 ,海明距离为6.
都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 加油把
都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 学习了
请问,有哪些优化的思路。
这种短 query 的去重,simhash 不是那么准确,可以在 simhash 基础上面做二次去重吧。我 simhash 就当是初筛就好。不要完全依赖 simhash。
我想做对一个剧集的不同集进行去重,发现用simhash效果不行,就差个集数,simhash出来的结果相差都特别的大
比如说 西游记EP01 和 西游记EP02 就差别挺大的
比如说 西游记EP01 和 西游记EP02 就差别挺大的
文本特别短的情况下估计不太行。 在文本较长的情况下,如果两短文本不同的词的权重较大,那么也有可能导致最终simhash值差异较大。
This issue has not been updated for over 3 years and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.
This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.