simhash icon indicating copy to clipboard operation
simhash copied to clipboard

中文文档simhash值计算

Results 12 simhash issues
Sort by recently updated
recently updated
newest added

Hello,大神,问题如题目所示。网络上,找到的LSH无法理解

hi, 以下两个语句,取top32 ,海明距离为6. 都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 加油把 都听别人说好做,自己还没尝试呢 我是个大学生,我也想开店,楼主要好好教我啊 学习了 请问,有哪些优化的思路。

Stale

请问该项目有文档么? 请问demo.cpp中的 ``` simhasher.extract(s, res, topN); simhasher.make(s, topN, u64); ``` 分别是什么意思?

Stale

我想使用demo来运行,但是发现路径都是相对路径,然后我这边运行不了。我不是太了解C++,一个一个该路径过于繁琐,有什么好的建议吗

Stale

您好,python版: https://github.com/leonsim/simhash, 用的就是本代码中的那段文字。

Stale

Simhasher.hpp: In member function ‘bool simhash::Simhasher::extract(const string&, std::vector&, size_t) const’: Simhasher.hpp:23:58: error: void value not ignored as it ought to be return _extractor.Extract(text, res, topN);

Stale

Sorry, I am a newbie. There are four utf8 files in the dict and I am confused where they are from, what each of them are used for, Can I...

Stale

一、您设置的词典的idf是怎么计算得到的,在海量文档处理的时候,是否需要更新idf? 二、对于形如“鍗楁棆鎺ц偂寮 姤1.32鍏 楂树笂甯备环10% 銆  鍗楁棆鎺ц偂锛”、“懆浜斿憿鏄 [富锷涢槾闄╃殑鐜╀竴鎶婏纴涓嶈Е纰”这样的语句,您是怎么处理的? 三、对若干文本进行汉明距离计算时,发现文档区别很大,但是汉明距离很小,这大概是什么原因?词频设置问题?

Stale