乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      大數(shù)據(jù)當(dāng)前研究現(xiàn)狀及未來主要研究熱點

       黃埔達(dá)人 2018-11-30

      隨著數(shù)據(jù)量的飛速增長,對大數(shù)據(jù)進(jìn)行獲取、存儲、組織、分析和決策的基本策略是把大數(shù)據(jù)的計算推向數(shù)據(jù),而不是移動數(shù)據(jù),因為在大數(shù)據(jù)處理過程中數(shù)據(jù)移動代價過高,在分布式環(huán)境中,傳統(tǒng)的數(shù)據(jù)處理方法在不高于TB級別數(shù)據(jù)處理可能可以接受,但面對大數(shù)據(jù),其執(zhí)行時間和執(zhí)行成本至少會增長幾個數(shù)量級,特別是對大量實時數(shù)據(jù)分析,這種移動數(shù)據(jù)的計算模式是不可取的。小編帶大家來了解一下當(dāng)前研究現(xiàn)狀及未來大數(shù)據(jù)主要研究熱點。

      大數(shù)據(jù)當(dāng)前研究現(xiàn)狀及未來主要研究熱點

      一般情況下,大數(shù)據(jù)管理全生命周期過程包括大數(shù)據(jù)獲取、存儲、組織、分析和決策等五個階段,圍繞大數(shù)據(jù)管理生態(tài)系統(tǒng)的研究,可以圍繞結(jié)構(gòu)化數(shù)據(jù)管理及非結(jié)構(gòu)化數(shù)據(jù)管理兩個方面進(jìn)行研究。圍繞結(jié)構(gòu)化數(shù)據(jù)管理,即傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng),衍生出傳統(tǒng)的大數(shù)據(jù)獲取、存儲、組織、分析和決策生態(tài)系統(tǒng)。而關(guān)系數(shù)據(jù)庫作為大數(shù)據(jù)管理的核心數(shù)據(jù)引擎,各類結(jié)構(gòu)化數(shù)據(jù)通過ETI工具按照其結(jié)構(gòu)特征進(jìn)行組織,存儲到關(guān)系數(shù)據(jù)庫中,再在客戶端通過SQL語言進(jìn)行例行性的數(shù)據(jù)分析,進(jìn)而根據(jù)數(shù)據(jù)分析結(jié)構(gòu)進(jìn)行技術(shù)性決策分析,目前,處理結(jié)構(gòu)化大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫管理技術(shù)已經(jīng)非常成熟,如商業(yè)型Oracle、SqlServer、開源型MySql等,均具備了強大的結(jié)構(gòu)化數(shù)據(jù)管理功能,并且均擁有較為強大的數(shù)據(jù)倉庫功能,對于的數(shù)據(jù)挖掘技術(shù)也已經(jīng)充分滿足一般的結(jié)構(gòu)化數(shù)據(jù)分析、決策需求。

      但針對復(fù)雜的結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理需求,Sql語言表達(dá)能力就暴露出了一定局限性,在某些特殊大數(shù)據(jù)處理過程中,需要把數(shù)據(jù)從數(shù)據(jù)庫中讀取出來,導(dǎo)致大量數(shù)據(jù)的移動,將數(shù)據(jù)導(dǎo)入到前端分析工具(如SPSS、SAS等),借助于統(tǒng)計分析軟件進(jìn)行大數(shù)據(jù)深度分析和決策,這樣產(chǎn)生的致命性問題就是大數(shù)據(jù)移動會造成性能急劇下降。因此,SPSS、SAS等數(shù)據(jù)分析企業(yè)正在致力于把計算過程封裝在數(shù)據(jù)庫系統(tǒng)中執(zhí)行,但目前進(jìn)展有限,并且大數(shù)據(jù)分析函數(shù)的分布化、并行化、數(shù)據(jù)處理系統(tǒng)的擴展性、靈活性、智能性等仍然是難以解決的問題。

      隨著Hadoop開源框架及其相關(guān)技術(shù)的迅速興起和逐步完善,使其成為打開大數(shù)據(jù)之門的金鑰匙,也成為解決傳統(tǒng)的大數(shù)據(jù)處理方式所面臨的兩大難題的關(guān)鍵,從而推動大數(shù)據(jù)管理的新生態(tài)系統(tǒng)的浮現(xiàn)。從技術(shù)上看,Hadoop兩項關(guān)鍵服務(wù):采用Hadoop分布式文件系統(tǒng)的可靠大數(shù)據(jù)存儲服務(wù)、及基于MapReduce編程模型的高性能并行大數(shù)據(jù)處理服務(wù),能夠提供對結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實,并可與老的信息管理系統(tǒng)部署在一起,從而能夠以有利新方式組裝新舊數(shù)據(jù)集合,讓圖書館可以根據(jù)自有信息和問題定制知識服務(wù)組合方式,更容易地分析和研究復(fù)雜數(shù)據(jù),同時作為一個自愈系統(tǒng),在出現(xiàn)系統(tǒng)變化或故障時,它仍可以運行大規(guī)模的高性能處理任務(wù),并提供數(shù)據(jù)。其他諸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大數(shù)據(jù)處理添加件、交叉集成件和定制實現(xiàn),均能為新生態(tài)系統(tǒng)提供強大的技術(shù)支持。

      盡管如此,當(dāng)前各個方面的相關(guān)研究都不能完美的解決大數(shù)據(jù)核心問題,仍然有許多極具挑戰(zhàn)性的工作等待著我們?nèi)パ芯俊?/p>

      (1)關(guān)系數(shù)據(jù)庫和MapReduce技術(shù)有機融合的研究。如前所述,MapReduce與關(guān)系數(shù)據(jù)庫各有優(yōu)缺點,如何依據(jù)不同的大數(shù)據(jù)處理業(yè)務(wù)需求,設(shè)計同時具備兩種技術(shù)優(yōu)勢的技術(shù)架構(gòu)(即有關(guān)系數(shù)據(jù)庫的通用性、易操作性和MapReduce的可擴展性、開放性、靈活性、容錯性和智能性),在對關(guān)系數(shù)據(jù)庫更深層次了解的基礎(chǔ)上,深入分析MapReduce編程模型內(nèi)在的局限性和并行計算模型。如何有機融合關(guān)系數(shù)據(jù)庫技術(shù)和MapReduce技術(shù),使之能夠有效地支持迭代式并行計算模型的執(zhí)行,這也是大數(shù)據(jù)處理技術(shù)的核心問題之一。

      (2)對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)更加復(fù)雜的或更大規(guī)模的分析。MapReduce計算模型在很大程度上,能夠彌補關(guān)系數(shù)據(jù)庫在這兩個方面的缺憾,而在云計算環(huán)境中可以初步實現(xiàn)更加復(fù)雜和更大規(guī)模的大數(shù)據(jù)處理,比如大規(guī)模社會計算、大規(guī)模社交網(wǎng)絡(luò)、時間序列分析、大規(guī)模圖分析、及更細(xì)粒度的仿真等,這一類技術(shù)仍然不夠成熟,需要花費更多的時間、精力去探討。

      (3)大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口。如何較好的實現(xiàn)大數(shù)據(jù)處理的各個階段的可視化、智能化、及個性化的展示和操作,尤其是多維數(shù)據(jù)操作、及決策結(jié)果評估的可視化的智能展示。

      (4)大數(shù)據(jù)管理系統(tǒng)的可靠性研究。當(dāng)前大數(shù)據(jù)管理體系是基于大規(guī)模廉價計算機集群的云計算環(huán)境,采用的是主從結(jié)構(gòu),由此決定了主節(jié)點一旦失效,勢必會造成整個大數(shù)據(jù)管理系統(tǒng)失效的局面。因此,如何在不影響全局的情況下,提高大數(shù)據(jù)管理系統(tǒng)的主節(jié)點的可靠性,將是未來需要解決的關(guān)鍵問題之一。

      (5)大數(shù)據(jù)的網(wǎng)絡(luò)傳輸和壓縮問題。MapReduce編程模型的計算特征決定了其性能取決于I/O和網(wǎng)絡(luò)傳輸質(zhì)量和計算代價。而數(shù)據(jù)壓縮技術(shù)不僅可節(jié)省存儲空間、節(jié)省I/O及網(wǎng)絡(luò)傳輸帶價,還可利用云計算環(huán)境中存儲能力和并行計算能力,大幅提升大數(shù)據(jù)管理系統(tǒng)的性能。HeYongqiang和AvriliaFloratou所帶領(lǐng)的兩個團(tuán)隊均成功的利用數(shù)據(jù)壓縮技術(shù)提升了大數(shù)據(jù)管理系統(tǒng)的性能,但這些研究都是基于他們各自的大數(shù)據(jù)處理模型,而非默認(rèn)的Hadoop數(shù)據(jù)處理模型。因此,基于MapReduce編程模型的通用型大數(shù)據(jù)壓縮技術(shù)也是尚待研究的核心技術(shù)之一。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多