編輯:西和西 校對排版:吳雙 大數(shù)據(jù)關(guān)鍵技術(shù)涵蓋從數(shù)據(jù)存儲、處理、應用等多方面的技術(shù)。如下圖所示,根據(jù)大數(shù)據(jù)的處理過程,可將其分為數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)檢索與分析、數(shù)據(jù)呈現(xiàn)與應用、數(shù)據(jù)安全等環(huán)節(jié)。由于大數(shù)據(jù)具有大規(guī)模、異構(gòu)、多源等特點,大數(shù)據(jù)技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)也有所不同。在大數(shù)據(jù)處理的每個環(huán)節(jié)中,都出現(xiàn)了許多針對大數(shù)據(jù)獨特需求的新興技術(shù)。 數(shù)據(jù)采集處于大數(shù)據(jù)生命周期中第一個環(huán)節(jié),它通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于可能有成千上萬的用戶同時進行并發(fā)訪問和操作,因此,必須采用專門針對大數(shù)據(jù)的采集方法,其主要包括以下三種: 一、系統(tǒng)日志采集 許多公司的業(yè)務平臺每天都會產(chǎn)生大量的日志數(shù)據(jù)。日志收集系統(tǒng)要做的事情就是收集業(yè)務日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。 高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。 目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng),目前是Apache的一個子項目。Scribe是Facebook開源日志收集系統(tǒng),它為日志的分布式收集、統(tǒng)一處理提供一個可擴展的、高容錯的解決方案。 二、網(wǎng)絡數(shù)據(jù)采集 網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件。它支持圖片、音頻、視頻等文件的采集,且附件與正文可自動關(guān)聯(lián)。對于網(wǎng)絡流量的采集則可使用DPI或DFI等帶寬管理技術(shù)進行處理。 三、數(shù)據(jù)庫采集 一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。這種方法通常在采集端部署大量數(shù)據(jù)庫,并對如何在這些數(shù)據(jù)庫之間進行負載均衡和分片進行深入的思考和設(shè)計。 近年來,各類大數(shù)據(jù)公司在互聯(lián)網(wǎng)時代下如雨后春筍般涌現(xiàn)。不論規(guī)模大小,是否能持續(xù)地獲取可供挖掘的數(shù)據(jù)是判斷某公司是否有前景和價值的標準之一?;ヂ?lián)網(wǎng)企業(yè)巨頭存在規(guī)模龐大的用戶,通過對用戶的電商交易、社交、搜索等數(shù)據(jù)進行充分挖掘后,擁有了穩(wěn)定且安全的數(shù)據(jù)資源。 |
|