simhash icon indicating copy to clipboard operation
simhash copied to clipboard

目前尝试使用了一下simhash做新闻的去重,有三个疑问,希望能帮助解答一下

Open xjianster opened this issue 8 years ago • 3 comments

一、您设置的词典的idf是怎么计算得到的,在海量文档处理的时候,是否需要更新idf? 二、对于形如“鍗楁棆鎺ц偂寮 姤1.32鍏 楂树笂甯备环10% 銆  鍗楁棆鎺ц偂锛”、“懆浜斿憿鏄 [富锷涢槾闄╃殑鐜╀竴鎶婏纴涓嶈Е纰”这样的语句,您是怎么处理的? 三、对若干文本进行汉明距离计算时,发现文档区别很大,但是汉明距离很小,这大概是什么原因?词频设置问题?

xjianster avatar May 18 '16 06:05 xjianster

  1. 词频tf是每篇文章统计一下就行了,idf是通过jieba的词典拿到的,一般不需要更新词频。
  2. 这段文本是有编码错误吧?编码请认准utf8编码
  3. 若干文本是什么文本?短文本还是长文本?去重我建议不管用什么算法,都吃透那个算法的过程。 因为算法总是有badcase,不理解的话很难查出badcase的原因。各种原因都有可能。

yanyiwu avatar May 18 '16 06:05 yanyiwu

仔细看了一下原理,第三种情况,我觉得可能是因为返回全部词频,但新闻长短不一,最后造成不同新闻的simhash值相近;改成返回Top50后,就没有这个问题;多谢答疑解惑

xjianster avatar May 18 '16 07:05 xjianster

This issue has not been updated for over 5 years and will be marked as stale. If the issue still exists, please comment or update the issue, otherwise it will be closed after 7 days.

github-actions[bot] avatar Sep 07 '24 13:09 github-actions[bot]

This issue has been automatically closed due to inactivity. If the issue still exists, please reopen it.

github-actions[bot] avatar Sep 20 '24 13:09 github-actions[bot]