在實(shí)際的工作環(huán)境下,許多人會(huì)遇到海量數(shù)據(jù)這個(gè)復(fù)雜而艱巨的問題,它的主要難點(diǎn)有以下幾個(gè)方面: 一、數(shù)據(jù)量過大,數(shù)據(jù)中什么情況都可能存在。 如果說有10條數(shù)據(jù),那么大不了每條去逐一檢查,人為處理,如果有上百條數(shù)據(jù),也可以考慮,如果數(shù)據(jù)上到千萬級(jí)別,甚至 過億,那不是手工能解決的了,必須通過工具或者程序進(jìn)行處理,尤其海量的數(shù)據(jù)中,什么情況都可能存在,例如,數(shù)據(jù)中某處格式出了問題,尤其在程序處理時(shí), 前面還能正常處理,突然到了某個(gè)地方問題出現(xiàn)了,程序終止了。 二、軟硬件要求高,系統(tǒng)資源占用率高。 對(duì)海量的數(shù)據(jù)進(jìn)行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統(tǒng)資源。一般情況,如果處理的數(shù)據(jù)過TB級(jí),小型機(jī)是要考慮的,普通的機(jī)子如果有好的方法可以考慮,不過也必須加大CPU和內(nèi)存,就象面對(duì)著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。 三、要求很高的處理方法和技巧。 這也是本文的寫作目的所在,好的處理方法是一位工程師長(zhǎng)期工作經(jīng)驗(yàn)的積累,也是個(gè)人的經(jīng)驗(yàn)的總結(jié)。沒有通用的處理方法,但有通用的原理和規(guī)則。 下面我們來詳細(xì)介紹一下處理海量數(shù)據(jù)的經(jīng)驗(yàn)和技巧: 一、選用優(yōu)秀的數(shù)據(jù)庫工具 現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對(duì)海量數(shù)據(jù)的處理對(duì)所使用的數(shù)據(jù)庫工具要求比較高,一般使用Oracle或者DB2,微軟 公司最近發(fā)布的SQL Server 2005性能也不錯(cuò)。另外在BI領(lǐng)域:數(shù)據(jù)庫,數(shù)據(jù)倉庫,多維數(shù)據(jù)庫,數(shù)據(jù)挖掘等相關(guān)工具也要進(jìn)行選擇,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。筆者在實(shí)際數(shù)據(jù)分析項(xiàng)目中,對(duì)每天6000萬條的日志數(shù)據(jù)進(jìn)行處理,使用SQL Server 2000需要花費(fèi)6小時(shí),而使用SQL Server 2005則只需要花費(fèi)3小時(shí)。 二、編寫優(yōu)良的程序代碼 處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進(jìn)行復(fù)雜數(shù)據(jù)處理時(shí),必須使用程序。好的程序代碼對(duì)數(shù)據(jù)的處理至關(guān)重要,這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題,更是數(shù)據(jù)處理效率的問題。良好的程序代碼應(yīng)該包含好的算法,包含好的處理流程,包含好的效率,包含好的異常處理機(jī)制等。 三、對(duì)海量數(shù)據(jù)進(jìn)行分區(qū)操作 對(duì)海量數(shù)據(jù)進(jìn)行分區(qū)操作十分必要,例如針對(duì)按年份存取的數(shù)據(jù),我們可以按年進(jìn)行分區(qū),不同的數(shù)據(jù)庫有不同的分區(qū)方式,不 過處理機(jī)制大體相同。例如SQL Server的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開,減小磁盤I/O,減小了系統(tǒng)負(fù)荷, 而且還可以將日志,索引等放于不同的分區(qū)下。 四、建立廣泛的索引 對(duì)海量的數(shù)據(jù)處理,對(duì)大表建立索引是必行的,建立索引要考慮到具體情況,例如針對(duì)大表的分組、排序等字段,都要建立相應(yīng) 索引,一般還可以建立復(fù)合索引,對(duì)經(jīng)常插入的表則建立索引時(shí)要小心,筆者在處理數(shù)據(jù)時(shí),曾經(jīng)在一個(gè)ETL流程中,當(dāng)插入表時(shí),首先刪除索引,然后插入完 畢,建立索引,并實(shí)施聚合操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時(shí)機(jī),索引的填充因子和聚集、非聚集索引都要考慮。 五、建立緩存機(jī)制 當(dāng)數(shù)據(jù)量增加時(shí),一般的處理工具都要考慮到緩存問題。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗,例如,筆者在處理2億條數(shù)據(jù)聚合操作時(shí),緩存設(shè)置為100000條/Buffer,這對(duì)于這個(gè)級(jí)別的數(shù)據(jù)量是可行的。 六、加大虛擬內(nèi)存 如果系統(tǒng)資源有限,內(nèi)存提示不足,則可以靠增加虛擬內(nèi)存來解決。筆者在實(shí)際項(xiàng)目中曾經(jīng)遇到針對(duì)18億條的數(shù)據(jù)進(jìn)行處理, 內(nèi)存為1GB,1個(gè)P42.4G的CPU,對(duì)這么大的數(shù)據(jù)量進(jìn)行聚合操作是有問題的,提示內(nèi)存不足,那么采用了加大虛擬內(nèi)存的方法來解決,在6塊磁盤分區(qū) 上分別建立了6個(gè)4096M的磁盤分區(qū),用于虛擬內(nèi)存,這樣虛擬的內(nèi)存則增加為 4096*6 + 1024 =25600 M,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。 七、分批處理 海量數(shù)據(jù)處理難因?yàn)閿?shù)據(jù)量大,那么解決海量數(shù)據(jù)處理難的問題其中一個(gè)技巧是減少數(shù)據(jù)量。可以對(duì)海量數(shù)據(jù)分批處理,然后處 理后的數(shù)據(jù)再進(jìn)行合并操作,這樣逐個(gè)擊破,有利于小數(shù)據(jù)量的處理,不至于面對(duì)大數(shù)據(jù)量帶來的問題,不過這種方法也要因時(shí)因勢(shì)進(jìn)行,如果不允許拆分?jǐn)?shù)據(jù),還 需要另想辦法。不過一般的數(shù)據(jù)按天、按月、按年等存儲(chǔ)的,都可以采用先分后合的方法,對(duì)數(shù)據(jù)進(jìn)行分開處理。 八、使用臨時(shí)表和中間表 數(shù)據(jù)量增加時(shí),處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利用一定的規(guī)則進(jìn)行合 并,處理過程中的臨時(shí)表的使用和中間結(jié)果的保存都非常重要,如果對(duì)于超海量的數(shù)據(jù),大表處理不了,只能拆分為多個(gè)小表。如果處理過程中需要多步匯總操作, 可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個(gè)胖子。 九、優(yōu)化查詢SQL語句 在對(duì)海量數(shù)據(jù)進(jìn)行查詢處理過程中,查詢的SQL語句的性能對(duì)查詢效率的影響是非常大的,編寫高效優(yōu)良的SQL腳本和存儲(chǔ) 過程是數(shù)據(jù)庫工作人員的職責(zé),也是檢驗(yàn)數(shù)據(jù)庫工作人員水平的一個(gè)標(biāo)準(zhǔn),在對(duì)SQL語句的編寫過程中,例如減少關(guān)聯(lián),少用或不用游標(biāo),設(shè)計(jì)好高效的數(shù)據(jù)庫表 結(jié)構(gòu)等都十分必要。筆者在工作中試著對(duì)1億行的數(shù)據(jù)使用游標(biāo),運(yùn)行3個(gè)小時(shí)沒有出結(jié)果,這是一定要改用程序處理了。 十、使用文本格式進(jìn)行處理 對(duì)一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫,如果對(duì)復(fù)雜的數(shù)據(jù)處理,必須借助程序,那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇, 是一定要選擇程序操作文本的,原因?yàn)椋撼绦虿僮魑谋舅俣瓤?;?duì)文本進(jìn)行處理不容易出錯(cuò);文本的存儲(chǔ)不受限制等。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者 csv格式(文本格式),對(duì)它進(jìn)行處理牽扯到數(shù)據(jù)清洗,是要利用程序進(jìn)行處理的,而不建議導(dǎo)入數(shù)據(jù)庫再做清洗。 十一、定制強(qiáng)大的清洗規(guī)則和出錯(cuò)處理機(jī)制 海量數(shù)據(jù)中存在著不一致性,極有可能出現(xiàn)某處的瑕疵。例如,同樣的數(shù)據(jù)中的時(shí)間字段,有的可能為非標(biāo)準(zhǔn)的時(shí)間,出現(xiàn)的原因可能為應(yīng)用程序的錯(cuò)誤,系統(tǒng)的錯(cuò)誤等,這是在進(jìn)行數(shù)據(jù)處理時(shí),必須制定強(qiáng)大的數(shù)據(jù)清洗規(guī)則和出錯(cuò)處理機(jī)制。 十二、建立視圖或者物化視圖 視圖中的數(shù)據(jù)來源于基表,對(duì)海量數(shù)據(jù)的處理,可以將數(shù)據(jù)按一定的規(guī)則分散到各個(gè)基表中,查詢或處理過程中可以基于視圖進(jìn)行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區(qū)別。 十三、避免使用32位機(jī)子(極端情況) 目前的計(jì)算機(jī)很多都是32位的,那么編寫的程序?qū)?nèi)存的需要便受限制,而很多的海量數(shù)據(jù)處理是必須大量消耗內(nèi)存的,這便要求更好性能的機(jī)子,其中對(duì)位數(shù)的限制也十分重要。 十四、考慮操作系統(tǒng)問題 海量數(shù)據(jù)處理過程中,除了對(duì)數(shù)據(jù)庫,處理程序等要求比較高以外,對(duì)操作系統(tǒng)的要求也放到了重要的位置,一般是必須使用服務(wù)器的,而且對(duì)系統(tǒng)的安全性和穩(wěn)定性等要求也比較高。尤其對(duì)操作系統(tǒng)自身的緩存機(jī)制,臨時(shí)空間的處理等問題都需要綜合考慮。 十五、使用數(shù)據(jù)倉庫和多維數(shù)據(jù)庫存儲(chǔ) 數(shù)據(jù)量加大是一定要考慮OLAP的,傳統(tǒng)的報(bào)表可能5、6個(gè)小時(shí)出來結(jié)果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數(shù)據(jù)的利器是OLAP多維分析,即建立數(shù)據(jù)倉庫,建立多維數(shù)據(jù)集,基于多維數(shù)據(jù)集進(jìn)行報(bào)表展現(xiàn)和數(shù)據(jù)挖掘等。 十六、使用采樣數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘 基于海量數(shù)據(jù)的數(shù)據(jù)挖掘正在逐步興起,面對(duì)著超海量的數(shù)據(jù),一般的挖掘軟件或算法往往采用數(shù)據(jù)抽樣的方式進(jìn)行處理,這樣 的誤差不會(huì)很高,大大提高了處理效率和處理的成功率。一般采樣時(shí)要注意數(shù)據(jù)的完整性和,防止過大的偏差。筆者曾經(jīng)對(duì)1億2千萬行的表數(shù)據(jù)進(jìn)行采樣,抽取出 400萬行,經(jīng)測(cè)試軟件測(cè)試處理的誤差為千分之五,客戶可以接受。 還有一些方法,需要在不同的情況和場(chǎng)合下運(yùn)用,例如使用代理鍵等操作,這樣的好處是加快了聚合時(shí)間,因?yàn)閷?duì)數(shù)值型的聚合比對(duì)字符型的聚合快得多。類似的情況需要針對(duì)不同的需求進(jìn)行處理。 海量數(shù)據(jù)是發(fā)展趨勢(shì),對(duì)數(shù)據(jù)分析和挖掘也越來越重要,從海量數(shù)據(jù)中提取有用信息重要而緊迫,這便要求處理要準(zhǔn)確,精度要高,而且處理時(shí)間要短,得到有價(jià)值信息要快,所以,對(duì)海量數(shù)據(jù)的研究很有前途,也很值得進(jìn)行廣泛深入的研究。 海量數(shù)據(jù)處理專題(一)——開篇大數(shù)據(jù)量的問題是很多面試筆試中經(jīng)常出現(xiàn)的問題,比如baidu google 騰訊 這樣的一些涉及到海量數(shù)據(jù)的公司經(jīng)常會(huì)問到。 下面的方法是我對(duì)海量數(shù)據(jù)的處理方法進(jìn)行了一個(gè)一般性的總結(jié),當(dāng)然這些方法可能并不能完全覆蓋所有的問題,但是這樣 的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目,方法不一定最優(yōu),如果你有更好的處理方法,歡迎與我討 論。 本貼從解決這類問題的方法入手,開辟一系列專題來解決海量數(shù)據(jù)問題。擬包含 以下幾個(gè)方面。
在這些解決方案之上,再借助一定的例子來剖析海量數(shù)據(jù)處理問題的解決方案。 海量數(shù)據(jù)處理專題(二)——Bloom Filter【什么是Bloom Filter】
海量數(shù)據(jù)處理專題(三)——Hash
![]() 左邊很明顯是個(gè)數(shù)組,數(shù)組的每個(gè)成員包括一個(gè)指針,指向一個(gè)鏈表的頭,當(dāng)然這個(gè)鏈表可能為空,也可能元素很多。我們根據(jù)元素的一些特征把元素分配到不同的鏈表中去,也是根據(jù)這些特征,找到正確的鏈表,再從鏈表中找出這個(gè)元素。 元素特征轉(zhuǎn)變?yōu)閿?shù)組下標(biāo)的方法就是散列法。散列法當(dāng)然不止一種,下面列出三種比較常用的。 1,除法散列法 最直觀的一種,上圖使用的就是這種散列法,公式: index = value % 16 學(xué)過匯編的都知道,求模數(shù)其實(shí)是通過一個(gè)除法運(yùn)算得到的,所以叫“除法散列法”。 2,平方散列法 求index是非常頻繁的操作,而乘法的運(yùn)算要比除法來得省時(shí)(對(duì)現(xiàn)在的CPU來說,估計(jì)我們感覺不出來),所以我們考慮把除法換成乘法和一個(gè)位移操作。公式: index = (value * value) >> 28 如果數(shù)值分配比較均勻的話這種方法能得到不錯(cuò)的結(jié)果,但我上面畫的那個(gè)圖的各個(gè)元素的值算出來的index都是0——非常失敗。也許你還有個(gè)問 題,value如果很大,value * value不會(huì)溢出嗎?答案是會(huì)的,但我們這個(gè)乘法不關(guān)心溢出,因?yàn)槲覀兏静皇菫榱双@取相乘結(jié)果,而是為了獲取index。 3,斐波那契(Fibonacci)散列法 平方散列法的缺點(diǎn)是顯而易見的,所以我們能不能找出一個(gè)理想的乘數(shù),而不是拿value本身當(dāng)作乘數(shù)呢?答案是肯定的。 1,對(duì)于16位整數(shù)而言,這個(gè)乘數(shù)是40503 2,對(duì)于32位整數(shù)而言,這個(gè)乘數(shù)是2654435769 3,對(duì)于64位整數(shù)而言,這個(gè)乘數(shù)是11400714819323198485 這幾個(gè)“理想乘數(shù)”是如何得出來的呢?這跟一個(gè)法則有關(guān),叫黃金分割法則,而描述黃金分割法則的最經(jīng)典表達(dá)式無疑就是著名的斐波那契數(shù)列,如果你還有興 趣,就到網(wǎng)上查找一下“斐波那契數(shù)列”等關(guān)鍵字,我數(shù)學(xué)水平有限,不知道怎么描述清楚為什么,另外斐波那契數(shù)列的值居然和太陽系八大行星的軌道半徑的比例 出奇吻合,很神奇,對(duì)么? 對(duì)我們常見的32位整數(shù)而言,公式: i ndex = (value * 2654435769) >> 28 如果用這種斐波那契散列法的話,那我上面的圖就變成這樣了: ![]() 【適用范圍】
海量數(shù)據(jù)處理專題(四)——Bit-map【什么是Bit-map】 ![]() ![]()
C代碼:
【適用范圍】
海量數(shù)據(jù)處理專題(五)——堆【什么是堆】
那么下面介紹二叉堆:二叉堆是一種完全二叉樹,其任意子樹的左右節(jié)點(diǎn)(如果有的話)的鍵值一定比根節(jié)點(diǎn)大,上圖其實(shí)就是一個(gè)二叉堆。 你一定發(fā)覺了,最小的一個(gè)元素就是數(shù)組第一個(gè)元素,那么二叉堆這種有序隊(duì)列如何入隊(duì)呢?看圖:
假設(shè)要在這個(gè)二叉堆里入隊(duì)一個(gè)單元,鍵值為2,那只需在數(shù)組末尾加入這個(gè)元素,然后盡可能把這個(gè)元素往上挪,直到挪不動(dòng),經(jīng)過了這種復(fù)雜度為Ο(logn)的操作,二叉堆還是二叉堆。 那如何出隊(duì)呢?也不難,看圖:
【適用范圍】 【基本原理及要點(diǎn)】 【擴(kuò)展】 【問題實(shí)例】
海量數(shù)據(jù)處理專題(六)【什么是雙層桶】 【適用范圍】 【基本原理及要點(diǎn)】 【擴(kuò)展】 【問題實(shí)例】 有 點(diǎn)像鴿巢原理,整數(shù)個(gè)數(shù)為2^32,也就是,我們可以將這2^32個(gè)數(shù),劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū) 域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。 當(dāng)然這個(gè)題也可以用我們前面講過的BitMap方法解決,正所謂條條大道通羅馬~~~ 2).5億個(gè)int找它們的中位數(shù)。 這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù),之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域,同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。 實(shí) 際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域,然后確定區(qū)域的第幾 大數(shù),在將該區(qū)域分成2^20個(gè)子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。 3).現(xiàn)在有一個(gè)0-30000的隨機(jī)數(shù)生成器。請(qǐng)根據(jù)這個(gè)隨機(jī)數(shù)生成器,設(shè)計(jì)一個(gè)抽獎(jiǎng)范圍是0-350000彩票中獎(jiǎng)號(hào)碼列表,其中要包含20000個(gè)中獎(jiǎng)號(hào)碼。 這個(gè)題剛好和上面兩個(gè)思想相反,一個(gè)0到3萬的隨機(jī)數(shù)生成器要生成一個(gè)0到35萬的隨機(jī)數(shù)。那么我們完全可以將0-35萬的區(qū)間分成35/3=12 個(gè)區(qū) 間,然后每個(gè)區(qū)間的長(zhǎng)度都小于等于3萬,這樣我們就可以用題目給的隨機(jī)數(shù)生成器來生成了,然后再加上該區(qū)間的基數(shù)。那么要每個(gè)區(qū)間生成多少個(gè)隨機(jī)數(shù)呢?計(jì) 算公式就是:區(qū)間長(zhǎng)度*隨機(jī)數(shù)密度,在本題目中就是30000*(20000/350000)。最后要注意一點(diǎn),該題目是有隱含條件的:彩票,這意味著你 生成的隨機(jī)數(shù)里面不能有重復(fù),這也是我為什么用雙層桶劃分思想的另外一個(gè)原因。 海量數(shù)據(jù)處理專題(七)——數(shù)據(jù)庫索引及優(yōu)化索引是對(duì)數(shù)據(jù)庫表中一列或多列的值進(jìn)行排序的一種結(jié)構(gòu),使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。 數(shù)據(jù)庫索引什么是索引 數(shù)據(jù)庫索引好比是一本書前面的目錄,能加快數(shù)據(jù)庫的查詢速度。 概述 建立索引的目的是加快對(duì)表中記錄的查找或排序。
B樹索引-Sql Server索引方式 為什么要?jiǎng)?chuàng)建索引 創(chuàng)建索引可以大大提高系統(tǒng)的性能。 在哪建索引 索引是建立在數(shù)據(jù)庫表中的某些列的上面。在創(chuàng)建索引的時(shí)候,應(yīng)該考慮在哪些列上可以創(chuàng)建索引,在哪些列上不能創(chuàng)建索引。一般來說,應(yīng)該在這些列上創(chuàng)建索引: 數(shù)據(jù)庫優(yōu)化 此外,除了數(shù)據(jù)庫索引之外,在LAMP結(jié)果如此流行的今天,數(shù)據(jù)庫(尤其是MySQL)性能優(yōu)化也是海量數(shù)據(jù)處理的一個(gè)熱點(diǎn)。下面就結(jié)合自己的經(jīng)驗(yàn),聊一聊MySQL數(shù)據(jù)庫優(yōu)化的幾個(gè)方面。
數(shù)據(jù)庫設(shè)計(jì)
配置緩存 第三,切表,切表也是一種比較流行的數(shù)據(jù)庫優(yōu)化法。分表包括兩種方式:橫向分表和縱向分表,其中,橫向分表比較有使用意義,故名思議,橫向切表 就是指把記錄分到不同的表中,而每條記錄仍舊是完整的(縱向切表后每條記錄是不完整的),例如原始表中有100條記錄,我要切成2個(gè)表,那么最簡(jiǎn)單也是最 常用的方法就是ID取摸切表法,本例中,就把ID為1,3,5,7。。。的記錄存在一個(gè)表中,ID為2,4,6,8,。。。的記錄存在另一張表中。雖然橫 向切表可以減少查詢強(qiáng)度,但是它也破壞了原始表的完整性,如果該表的統(tǒng)計(jì)操作比較多,那么就不適合橫向切表。橫向切表有個(gè)非常典型的用法,就是用戶數(shù)據(jù): 每個(gè)用戶的用戶數(shù)據(jù)一般都比較龐大,但是每個(gè)用戶數(shù)據(jù)之間的關(guān)系不大,因此這里很適合橫向切表。最后,要記住一句話就是:分表會(huì)造成查詢的負(fù)擔(dān),因此在數(shù) 據(jù)庫設(shè)計(jì)之初,要想好是否真的適合切表的優(yōu)化:
分表 第四,日志分析,在數(shù)據(jù)庫運(yùn)行了較長(zhǎng)一段時(shí)間以后,會(huì)積累大量的LOG日志,其實(shí)這里面的蘊(yùn)涵的有用的信息量還是很大的。通過分析日志,可以找到系統(tǒng)性能的瓶頸,從而進(jìn)一步尋找優(yōu)化方案。
性能分析 以上講的都是單機(jī)MySQL的性能優(yōu)化的一些經(jīng)驗(yàn),但是隨著信息大爆炸,單機(jī)的數(shù)據(jù)庫服務(wù)器已經(jīng)不能滿足我們的需求,于是,多多節(jié)點(diǎn),分布式數(shù)據(jù)庫網(wǎng)絡(luò)出現(xiàn)了,其一般的結(jié)構(gòu)如下:
分布式數(shù)據(jù)庫結(jié)構(gòu) 這種分布式集群的技術(shù)關(guān)鍵就是“同步復(fù)制”。。。
海量數(shù)據(jù)處理專題(八)——倒排索引(搜索引擎之基石)引言:在信息大爆炸的今天,有了搜索引擎的幫助,使得我們能夠快速,便捷的找到所求。提到搜索引擎,就不得不說VSM模型,說到VSM,就不得不聊倒排索引??梢院敛豢鋸埖闹v,倒排索引是搜索引擎的基石。 VSM檢索模型VSM全稱是Vector Space Model(向量空間模型),是IR(Information Retrieval信息檢索)模型中的一種,由于其簡(jiǎn)單,直觀,高效,所以被廣泛的應(yīng)用到搜索引擎的架構(gòu)中。98年的Google就是憑借這樣的一個(gè)模 型,開始了它的瘋狂擴(kuò)張之路。廢話不多說,讓我們來看看到底VSM是一個(gè)什么東東。 在開始之前,我默認(rèn)大家對(duì)線性代數(shù)里面的向量(Vector)有一定了解的。向量是既有大小又有方向的量,通常用有向線段表示,向量有:加、減、倍數(shù)、內(nèi)積、距離、模、夾角的運(yùn)算。 文檔(Document):一個(gè)完整的信息單元,對(duì)應(yīng)的搜索引擎系統(tǒng)里,就是指一個(gè)個(gè)的網(wǎng)頁。 標(biāo)引項(xiàng)(Term):文檔的基本構(gòu)成單位,例如在英文中可以看做是一個(gè)單詞,在中文中可以看作一個(gè)詞語。 查詢(Query):一個(gè)用戶的輸入,一般由多個(gè)Term構(gòu)成。 那么用一句話概況搜索引擎所做的事情就是:對(duì)于用戶輸入的Query,找到最相似的Document返回給用戶。而這正是IR模型所解決的問題: 信息檢索模型是指如何對(duì)查詢和文檔進(jìn)行表示,然后對(duì)它們進(jìn)行相似度計(jì)算的框架和方法。 舉個(gè)簡(jiǎn)單的例子: 現(xiàn)在有兩篇文章(Document)分別是 “春風(fēng)來了,春天的腳步近了” 和 “春風(fēng)不度玉門關(guān)”。然后輸入的Query是“春風(fēng)”,從直觀上感覺,前者和輸入的查詢更相關(guān)一些,因?yàn)樗?個(gè)春,但這只是我們的直觀感覺,如何量 化呢,要知道計(jì)算機(jī)是門嚴(yán)謹(jǐn)?shù)膶W(xué)科^_^。這個(gè)時(shí)候,我們前面講的Term和VSM模型就派上用場(chǎng)了。 首先我們要確定向量的維數(shù),這時(shí)候就需要一個(gè)字典庫,字典庫的大小,即是向量的維數(shù)。在該例中,字典為{春風(fēng),來了,春天, 的,腳步,近了,不度,玉門關(guān)} ,文檔向量,查詢向量如下圖:
VSM模型示例 PS:為了簡(jiǎn)單起見,這里分詞的粒度很大。 將Query和Document都量化為向量以后,那么就可以計(jì)算用戶的查詢和哪個(gè)文檔相似性更大了。簡(jiǎn)單的計(jì)算結(jié)果是D1和D2同Query的內(nèi) 積都是1,囧。當(dāng)然了,如果分詞粒度再細(xì)一些,查詢的結(jié)果就是另外一個(gè)樣子了,因此分詞的粒度也是會(huì)對(duì)查詢結(jié)果(主要是召回率和準(zhǔn)確率)造成影響的。 上述的例子是用一個(gè)很簡(jiǎn)單的例子來說明VSM模型的,計(jì)算文檔相似度的時(shí)候也是采用最原始的內(nèi)積的方法,并且只考慮了詞頻(TF)影響因子,而沒有考慮反詞頻(IDF),而現(xiàn)在比較常用的是cos夾角法,影響因子也非常多,據(jù)傳Google的影響因子有100+之多。
VSM模型公式 從上面的例子不難看出,如果向量的維度(對(duì)漢語來將,這個(gè)值一般在30w-45w)變大,而且文檔數(shù)量(通常都是海量的)變多,那么計(jì)算一次相關(guān)性,開銷是非常大的,如何解決這個(gè)問題呢?不要忘記了我們這節(jié)的主題就是 倒排索引,主角終于粉墨登場(chǎng)了?。。?/p> 倒排索引倒排索引非常類似我們前面提到的Hash結(jié)構(gòu)。以下內(nèi)容來自維基百科: 倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。 有兩種不同的反向索引形式:
后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時(shí)間和空間來創(chuàng)建。 由上面的定義可以知道,一個(gè)倒排索引包含一個(gè)字典的索引和所有詞的列表。其中字典索引中包含了所有的Term(通俗理解為文檔中的詞),索引后面跟 的列表則保存該詞的信息(出現(xiàn)的文檔號(hào),甚至包含在每個(gè)文檔中的位置信息)。下面我們還采用上面的方法舉一個(gè)簡(jiǎn)單的例子來說明倒排索引。 例如現(xiàn)在我們要對(duì)三篇文檔建立索引(實(shí)際應(yīng)用中,文檔的數(shù)量是海量的): 文檔1(D1):中國移動(dòng)互聯(lián)網(wǎng)發(fā)展迅速 文檔2(D2):移動(dòng)互聯(lián)網(wǎng)未來的潛力巨大 文檔3(D3):中華民族是個(gè)勤勞的民族 那么文檔中的詞典集合為:{中國,移動(dòng),互聯(lián)網(wǎng),發(fā)展,迅速,未來,的,潛力,巨大,中華,民族,是,個(gè),勤勞} 建好的索引如下圖:
倒排索引 在上面的索引中,存儲(chǔ)了兩個(gè)信息,文檔號(hào)和出現(xiàn)的次數(shù)。建立好索引以后,我們就可以開始查詢了。例如現(xiàn)在有一個(gè)Query是”中國移動(dòng)”。首先分詞 得到Term集合{中國,移動(dòng)},查倒排索引,分別計(jì)算query和d1,d2,d3的距離。有沒有發(fā)現(xiàn),倒排表建立好以后,就不需要在檢索整個(gè)文檔庫, 而是直接從字典集合中找到“中國”和“移動(dòng)”,然后遍歷后面的列表直接計(jì)算。 對(duì)倒排索引結(jié)構(gòu)我們已經(jīng)有了初步的了解,但在實(shí)際應(yīng)用中還有些需要解決的問題(主要是由海量數(shù)據(jù)引起的)。筆者列舉一些問題,并給出相應(yīng)的解決方案,拋磚以引玉,希望大家可以展開討論: 1.左側(cè)的索引表如何建立?怎么做才能最高效? 可能有人不假思索回答:左側(cè)的索引當(dāng)然要采取hash結(jié)構(gòu)啊,這樣可以快速的定位到字典項(xiàng)。但是這樣問題又來了,hash函數(shù)如何選取呢?而且 hash是有碰撞的,但是倒排表似乎又是不允許碰撞的存在的。事實(shí)上,雖然倒排表和hash異常的相思,但是兩者還是有很大區(qū)別的,其實(shí)在這里我們可以采 用前面提到的Bitmap的思想,每個(gè)Term(單詞)對(duì)應(yīng)一個(gè)位置(當(dāng)然了,這里不是一個(gè)比特位),而且是一一對(duì)應(yīng)的。如何能夠做到呢,一般在文字處理 中,有很多的編碼,漢字中的GBK編碼基本上就可以包含所有用到的漢字,每個(gè)漢字的GBK編碼是確定的,因此一個(gè)Term的”ID”也就確定了,從而可以 做到快速定位。注:得到一個(gè)漢字的GBK號(hào)是非??斓倪^程,可以理解為O(1)的時(shí)間復(fù)雜度。 2.如何快速的添加刪除更新索引? 有經(jīng)驗(yàn)的碼農(nóng)都知道,一般在系統(tǒng)的“做加法”的代價(jià)比“做減法”的代價(jià)要低很多,在搜索引擎中中也不例外。因此,在倒排表中,遇到要?jiǎng)h除一個(gè)文檔,其實(shí)不是真正的刪除,而是將其標(biāo)記刪除。這樣一個(gè)減法操作的代價(jià)就比較小了。 3.那么多的海量文檔,如果存儲(chǔ)呢?有么有什么備份策略呢? 當(dāng)然了,一臺(tái)機(jī)器是存儲(chǔ)不下的,分布式存儲(chǔ)是采取的。一般的備份保存3份就足夠了。 |
|