乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

       youxd 2016-06-24

      編輯:西和西 校對排版:吳雙

      大數(shù)據(jù)關(guān)鍵技術(shù)涵蓋從數(shù)據(jù)存儲、處理、應用等多方面的技術(shù)。如下圖所示,根據(jù)大數(shù)據(jù)的處理過程,可將其分為數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)檢索與分析、數(shù)據(jù)呈現(xiàn)與應用、數(shù)據(jù)安全等環(huán)節(jié)。由于大數(shù)據(jù)具有大規(guī)模、異構(gòu)、多源等特點,大數(shù)據(jù)技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)也有所不同。在大數(shù)據(jù)處理的每個環(huán)節(jié)中,都出現(xiàn)了許多針對大數(shù)據(jù)獨特需求的新興技術(shù)。

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

      數(shù)據(jù)采集處于大數(shù)據(jù)生命周期中第一個環(huán)節(jié),它通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于可能有成千上萬的用戶同時進行并發(fā)訪問和操作,因此,必須采用專門針對大數(shù)據(jù)的采集方法,其主要包括以下三種:

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

      一、系統(tǒng)日志采集

      許多公司的業(yè)務平臺每天都會產(chǎn)生大量的日志數(shù)據(jù)。日志收集系統(tǒng)要做的事情就是收集業(yè)務日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。

      高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。

      目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng),目前是Apache的一個子項目。Scribe是Facebook開源日志收集系統(tǒng),它為日志的分布式收集、統(tǒng)一處理提供一個可擴展的、高容錯的解決方案。

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

      二、網(wǎng)絡數(shù)據(jù)采集

      網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件。它支持圖片、音頻、視頻等文件的采集,且附件與正文可自動關(guān)聯(lián)。對于網(wǎng)絡流量的采集則可使用DPI或DFI等帶寬管理技術(shù)進行處理。

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

      三、數(shù)據(jù)庫采集

      一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。這種方法通常在采集端部署大量數(shù)據(jù)庫,并對如何在這些數(shù)據(jù)庫之間進行負載均衡和分片進行深入的思考和設(shè)計。

      近年來,各類大數(shù)據(jù)公司在互聯(lián)網(wǎng)時代下如雨后春筍般涌現(xiàn)。不論規(guī)模大小,是否能持續(xù)地獲取可供挖掘的數(shù)據(jù)是判斷某公司是否有前景和價值的標準之一?;ヂ?lián)網(wǎng)企業(yè)巨頭存在規(guī)模龐大的用戶,通過對用戶的電商交易、社交、搜索等數(shù)據(jù)進行充分挖掘后,擁有了穩(wěn)定且安全的數(shù)據(jù)資源。

      一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

        本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多