乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      海量數(shù)據(jù)相似度計算之simhash和海明距離

       憤怒的蔥花 2016-03-14

      通過 采集系統(tǒng) 我們采集了大量文本數(shù)據(jù),但是文本中有很多重復(fù)數(shù)據(jù)影響我們對于結(jié)果的分析。分析前我們需要對這些數(shù)據(jù)去除重復(fù),如何選擇和設(shè)計文本的去重算法?常見的有余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算法對于待比較的文本數(shù)據(jù)不多時還比較好用,如果我們的爬蟲每天采集的數(shù)據(jù)以千萬計算,我們?nèi)绾螌τ谶@些海量千萬級的數(shù)據(jù)進行高效的合并去重。最簡單的做法是拿著待比較的文本和數(shù)據(jù)庫中所有的文本比較一遍如果是重復(fù)的數(shù)據(jù)就標(biāo)示為重復(fù)??雌饋砗芎唵?,我們來做個測試,就拿最簡單的兩個數(shù)據(jù)使用Apache提供的 Levenshtein for 循環(huán)100w次計算這兩個數(shù)據(jù)的相似度。代碼結(jié)果如下:

                  String s1 = "你媽媽喊你回家吃飯哦,回家羅回家羅" ;
                  String s2 = "你媽媽叫你回家吃飯啦,回家羅回家羅" ;

                  long t1 = System.currentTimeMillis();

                  for (int i = 0; i < 1000000; i++) {
                         int dis = StringUtils .getLevenshteinDistance(s1, s2);
                  }

                  long t2 = System.currentTimeMillis();

                  System. out .println(" 耗費時間: " + (t2 - t1) + "  ms ");

      耗費時間: 4266 ms

      大跌眼鏡,居然計算耗費4秒。假設(shè)我們一天需要比較100w次,光是比較100w次的數(shù)據(jù)是否重復(fù)就需要4s,就算4s一個文檔,單線程一分鐘才處理15個文檔,一個小時才900個,一天也才21600個文檔,這個數(shù)字和一天100w相差甚遠,需要多少機器和資源才能解決。

      為此我們需要一種應(yīng)對于海量數(shù)據(jù)場景的去重方案,經(jīng)過研究發(fā)現(xiàn)有種叫 local sensitive hash 局部敏感哈希 的東西,據(jù)說這玩意可以把文檔降維到hash數(shù)字,數(shù)字兩兩計算運算量要小很多。查找很多文檔后看到google對于網(wǎng)頁去重使用的是simhash,他們每天需要處理的文檔在億級別,大大超過了我們現(xiàn)在文檔的水平。既然老大哥也有類似的應(yīng)用,我們也趕緊嘗試下。simhash是由 Charikar 在2002年提出來的,參考 《Similarity estimation techniques from rounding algorithms》 。 介紹下這個算法主要原理,為了便于理解盡量不使用數(shù)學(xué)公式,分為這幾步:

      • 1、分詞,把需要判斷文本分詞形成這個文章的特征單詞。最后形成去掉噪音詞的單詞序列并為每個詞加上權(quán)重,我們假設(shè)權(quán)重分為5個級別(1~5)。比如:“ 美國“51區(qū)”雇員稱內(nèi)部有9架飛碟,曾看見灰色外星人 ” ==> 分詞后為 “ 美國(4) 51區(qū)(5) 雇員(3) 稱(1) 內(nèi)部(2) 有(1) 9架(3) 飛碟(5) 曾(1) 看見(3) 灰色(4) 外星人(5)”,括號里是代表單詞在整個句子里重要程度,數(shù)字越大越重要。

      • 2、hash,通過hash算法把每個詞變成hash值,比如“美國”通過hash算法計算為 100101,“51區(qū)”通過hash算法計算為 101011。這樣我們的字符串就變成了一串串?dāng)?shù)字,還記得文章開頭說過的嗎,要把文章變?yōu)閿?shù)字計算才能提高相似度計算性能,現(xiàn)在是降維過程進行時。

      • 3、加權(quán),通過 2步驟的hash生成結(jié)果,需要按照單詞的權(quán)重形成加權(quán)數(shù)字串,比如“美國”的hash值為“100101”,通過加權(quán)計算為“4 -4 -4 4 -4 4”;“51區(qū)”的hash值為“101011”,通過加權(quán)計算為 “ 5 -5 5 -5 5 5”。

      • 4、合并,把上面各個單詞算出來的序列值累加,變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”,“51區(qū)”的 “ 5 -5 5 -5 5 5”, 把每一位進行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個單詞的,真實計算需要把所有單詞的序列串累加。

      • 5、降維,把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串,形成我們最終的simhash簽名。 如果每一位大于0 記為 1,小于0 記為 0。最后算出結(jié)果為:“1 0 1 0 1 1”。

      整個過程圖為:

      simhash計算過程圖

      大家可能會有疑問,經(jīng)過這么多步驟搞這么麻煩,不就是為了得到個 0 1 字符串嗎?我直接把這個文本作為字符串輸入,用hash函數(shù)生成 0 1 值更簡單。其實不是這樣的,傳統(tǒng)hash函數(shù)解決的是生成唯一值,比如 md5、hashmap等。md5是用于生成唯一簽名串,只要稍微多加一個字符md5的兩個數(shù)字看起來相差甚遠;hashmap也是用于鍵值對查找,便于快速插入和查找的數(shù)據(jù)結(jié)構(gòu)。不過我們主要解決的是文本相似度計算,要比較的是兩個文章是否相識,當(dāng)然我們降維生成了hashcode也是用于這個目的??吹竭@里估計大家就明白了,我們使用的simhash就算把文章中的字符串變成 01 串也還是可以用于計算相似度的,而傳統(tǒng)的hashcode卻不行。我們可以來做個測試,兩個相差只有一個字符的文本串,“你媽媽喊你回家吃飯哦,回家羅回家羅” 和 “你媽媽叫你回家吃飯啦,回家羅回家羅”。

      通過simhash計算結(jié)果為:

      1000010010101101111111100000101011010001001111100001001011001011

      1000010010101101011111100000101011010001001111100001101010001011

      通過 hashcode計算為:

      1111111111111111111111111111111110001000001100110100111011011110

      1010010001111111110010110011101

      大家可以看得出來,相似的文本只有部分 01 串變化了,而普通的hashcode卻不能做到,這個就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法應(yīng)該算是業(yè)界公認比較好的算法。在simhash的發(fā)明人Charikar的論文中并沒有給出具體的simhash算法和證明,“量子圖靈”得出的證明simhash是由隨機超平面hash算法演變而來的。

      現(xiàn)在通過這樣的轉(zhuǎn)換,我們把庫里的文本都轉(zhuǎn)換為simhash 代碼,并轉(zhuǎn)換為long類型存儲,空間大大減少。現(xiàn)在我們雖然解決了空間,但是如何計算兩個simhash的相似度呢?難道是比較兩個simhash的01有多少個不同嗎?對的,其實也就是這樣,我們通過海明距離(Hamming distance)就可以計算出兩個simhash到底相似不相似。兩個simhash對應(yīng)二進制(01串)取值不同的數(shù)量稱為這兩個simhash的海明距離。舉例如下: 1010100110 從第一位開始依次有第一位、第四、第五位不同,則海明距離為3。對于二進制字符串的a和b,海明距離為等于在a XOR b運算結(jié)果中1的個數(shù)(普遍算法)。

      為了高效比較,我們預(yù)先加載了庫里存在文本并轉(zhuǎn)換為simhash code 存儲在內(nèi)存空間。來一條文本先轉(zhuǎn)換為 simhash code,然后和內(nèi)存里的simhash code 進行比較,測試100w次計算在100ms。速度大大提升。

      未完待續(xù):

      1、目前速度提升了但是數(shù)據(jù)是不斷增量的,如果未來數(shù)據(jù)發(fā)展到一個小時100w,按現(xiàn)在一次100ms,一個線程處理一秒鐘 10次,一分鐘 60 * 10 次,一個小時 60*10 *60 次 = 36000次,一天 60*10*60*24 = 864000次。 我們目標(biāo)是一天100w次,通過增加兩個線程就可以完成。但是如果要一個小時100w次呢?則需要增加30個線程和相應(yīng)的硬件資源保證速度能夠達到,這樣成本也上去了。能否有更好的辦法,提高我們比較的效率?

      2、通過大量測試,simhash用于比較大文本,比如500字以上效果都還蠻好,距離小于3的基本都是相似,誤判率也比較低。但是如果我們處理的是微博信息,最多也就140個字,使用simhash的效果并不那么理想??慈缦聢D,在距離為3時是一個比較折中的點,在距離為10時效果已經(jīng)很差了,不過我們測試短文本很多看起來相似的距離確實為10。如果使用距離為3,短文本大量重復(fù)信息不會被過濾,如果使用距離為10,長文本的錯誤率也非常高,如何解決?

      simhash_hammingdistance

      參考:
      Detecting near-duplicates for web crawling.

      Similarity estimation techniques from rounding algorithms.

      http://en./wiki/Locality_sensitive_hashing

      http://en./wiki/Hamming_distance

      simHash 簡介以及 java 實現(xiàn)

      simhash原理推

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多