字元串比對算法之SimHash算法

2021-11-07 06:00:22

　　由于實驗室和網際網路基本沒啥關系，也就從來沒有關注過資料挖掘相關的東西。在實際工作中，第一次接觸到比對和聚類等工作，雖然用一些簡單的比對算法可以做小資料的聚類，但資料量達到一定的時候就束手無策了。　　是以，趁着周末把這方面的東西看了看，做個筆記。

　　google的論文“detecting near-duplicates for web crawling”--------simhash。

　　google采用這種算法來解決萬億級别的網頁的去重任務。　　

　　simhash算法的主要思想是降維，将高維的特征向量映射成一個低維的特征向量，通過兩個向量的hamming distance來确定文章是否重複或者高度近似。

步驟：　　

對于給定的一段語句，進行分詞，得到有效的特征向量

為每一個特征向量設定一個權值

對每一個特征向量計算hash值，為01組成的n-bit簽名

所有特征向量進行權重（1則為正，0則為負），然後累加

對于n-bit簽名的累加結果，如果>0置1，否則置0

得到該語句的simhash值

根據不同語句simhash的海明距離就來判斷相似程度

　　simhash用于比較大文本，比如500字以上效果都還蠻好，距離小于3的基本都是相似，誤判率也比較低。

　　這樣的話，小文本呢？如何解決？

<a href="http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html">http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html</a>

<a href="http://www.cnblogs.com/zhengyun_ustc/archive/2012/06/12/sim.html">http://www.cnblogs.com/zhengyun_ustc/archive/2012/06/12/sim.html</a>

<a href="http://blog.jobbole.com/21928/">http://blog.jobbole.com/21928/</a>

字元串比對算法之SimHash算法

字元串比對算法之SimHash算法

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希