simhash icon indicating copy to clipboard operation
simhash copied to clipboard

算法优化问题

Open gtfcugb opened this issue 8 years ago • 5 comments

hi, 以下两个语句,取top32 ,海明距离为6.

都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 加油把

都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 学习了

请问,有哪些优化的思路。

gtfcugb avatar Aug 23 '16 08:08 gtfcugb

这种短 query 的去重,simhash 不是那么准确,可以在 simhash 基础上面做二次去重吧。我 simhash 就当是初筛就好。不要完全依赖 simhash。

yanyiwu avatar Aug 28 '16 06:08 yanyiwu

我想做对一个剧集的不同集进行去重,发现用simhash效果不行,就差个集数,simhash出来的结果相差都特别的大

levylll avatar Jan 25 '19 08:01 levylll

比如说 西游记EP01 和 西游记EP02 就差别挺大的

levylll avatar Jan 25 '19 09:01 levylll

比如说 西游记EP01 和 西游记EP02 就差别挺大的

文本特别短的情况下估计不太行。 在文本较长的情况下,如果两短文本不同的词的权重较大,那么也有可能导致最终simhash值差异较大。

dawnranger avatar Nov 19 '19 07:11 dawnranger

This issue has not been updated for over 3 years and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.

github-actions[bot] avatar Sep 13 '24 13:09 github-actions[bot]

This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.

github-actions[bot] avatar Sep 20 '24 13:09 github-actions[bot]