乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

<output id="e9wm2"></output>

<s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

<s id="pkwtw"></s>

搜索

分享

QQ空間 QQ好友新浪微博微信

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

youxd 2016-06-24

展開全文

編輯：西和西校對排版：吳雙

大數(shù)據(jù)關(guān)鍵技術(shù)涵蓋從數(shù)據(jù)存儲、處理、應用等多方面的技術(shù)。如下圖所示，根據(jù)大數(shù)據(jù)的處理過程，可將其分為數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)檢索與分析、數(shù)據(jù)呈現(xiàn)與應用、數(shù)據(jù)安全等環(huán)節(jié)。由于大數(shù)據(jù)具有大規(guī)模、異構(gòu)、多源等特點，大數(shù)據(jù)技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)也有所不同。在大數(shù)據(jù)處理的每個環(huán)節(jié)中，都出現(xiàn)了許多針對大數(shù)據(jù)獨特需求的新興技術(shù)。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

數(shù)據(jù)采集處于大數(shù)據(jù)生命周期中第一個環(huán)節(jié)，它通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于可能有成千上萬的用戶同時進行并發(fā)訪問和操作，因此，必須采用專門針對大數(shù)據(jù)的采集方法，其主要包括以下三種：

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

一、系統(tǒng)日志采集

許多公司的業(yè)務平臺每天都會產(chǎn)生大量的日志數(shù)據(jù)。日志收集系統(tǒng)要做的事情就是收集業(yè)務日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。

高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。

目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng)，目前是Apache的一個子項目。Scribe是Facebook開源日志收集系統(tǒng)，它為日志的分布式收集、統(tǒng)一處理提供一個可擴展的、高容錯的解決方案。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

二、網(wǎng)絡數(shù)據(jù)采集

網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來，并以結(jié)構(gòu)化的方式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件。它支持圖片、音頻、視頻等文件的采集，且附件與正文可自動關(guān)聯(lián)。對于網(wǎng)絡流量的采集則可使用DPI或DFI等帶寬管理技術(shù)進行處理。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

三、數(shù)據(jù)庫采集

一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。這種方法通常在采集端部署大量數(shù)據(jù)庫，并對如何在這些數(shù)據(jù)庫之間進行負載均衡和分片進行深入的思考和設(shè)計。

近年來，各類大數(shù)據(jù)公司在互聯(lián)網(wǎng)時代下如雨后春筍般涌現(xiàn)。不論規(guī)模大小，是否能持續(xù)地獲取可供挖掘的數(shù)據(jù)是判斷某公司是否有前景和價值的標準之一?；ヂ?lián)網(wǎng)企業(yè)巨頭存在規(guī)模龐大的用戶，通過對用戶的電商交易、社交、搜索等數(shù)據(jù)進行充分挖掘后，擁有了穩(wěn)定且安全的數(shù)據(jù)資源。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)（一）——數(shù)據(jù)獲取

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： youxd > 《編程》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

youxd

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 詳解星形，三角形啟動原理
孩子總是做錯題，別老拿粗心當借口了，這才是根源！
如何看懂鋼結(jié)構(gòu)施工圖？
人類對于電磁學的認識處于什么樣的階段？
高考必背7000個單詞濃縮于100句
人工智能（一）逆天的傳感器

喜歡該文的人也喜歡更多

熱門閱讀換一換

<s id="9bxir"></s>

<sup id="9bxir"><thead id="9bxir"><pre id="9bxir"></pre></thead></sup>