乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      并行數(shù)據(jù)庫技術(shù)分析與展望

       印度阿三17 2021-03-16
      本文以我個人的理解簡單分析下并行數(shù)據(jù)庫的技術(shù)要點以及對未來并行數(shù)據(jù)庫的發(fā)展做下展望,理解有偏差的地方,歡迎各位指正。
      • 并行數(shù)據(jù)庫的定義

        在維基百科上,并行數(shù)據(jù)庫被定義為通過并行使用多個CPU和磁盤來將諸如裝載數(shù)據(jù)、建立索引、執(zhí)行查詢等操作并行化以提升性能的數(shù)據(jù)庫系統(tǒng)。其中最重要的關(guān)鍵詞是并行,分布式。

      • 并行數(shù)據(jù)庫的技術(shù)要點

        并行數(shù)據(jù)庫主要由執(zhí)行引擎、存儲引擎和管理功能模塊組成,它們的不同技術(shù)風(fēng)格形成了各個有特色的并行數(shù)據(jù)庫產(chǎn)品。隨著Hadoop的興起,目前MPP數(shù)據(jù)庫主要分成兩類,一類是傳統(tǒng)的MPP 關(guān)系型數(shù)據(jù)庫,比如。Greenplum,Vertica等,另外一類是借鑒了MPP并行數(shù)據(jù)庫的設(shè)計思想的SQL on Hadoop類的方案,比如Impala,HAWQ,SparkSQL等

        并行數(shù)據(jù)庫比較關(guān)鍵的技術(shù)點是存儲引擎,而在存儲引擎中最重要的就是數(shù)據(jù)分布按行進行Hash分布是并行數(shù)據(jù)庫的重要特征。其它數(shù)據(jù)分布方式無法精確控制數(shù)據(jù)擺放,也無法提供足夠的用于查詢優(yōu)化的存儲信息。這種緊密耦合的非透明的方式帶來了巨大的好處(同樣分布的表的高效關(guān)聯(lián)),同時也帶來了麻煩(擴展性、高可用等)。

        像一些SQL on Hadoop的方案,比如impala,就充分利用了HDFS的短路讀和數(shù)據(jù)本地性的方式來提升SQL查詢的性能。沒有解決Hash分布的解決方案都難以處理多個大表關(guān)聯(lián)(Join)的問題,它們多通過預(yù)關(guān)聯(lián)的方式來規(guī)避這個問題,形成某種類似OLAP多維立方體的解決方案(比如Google Dremel、Mesa,eBayKylin等);或通過shuffle實現(xiàn)重新分布(比如Hive或者SparkSQL)。解決了數(shù)據(jù)分布以后,就要思考計算好Hash后的數(shù)據(jù)在一個節(jié)點中怎么存。通常三種方式:行、列或者行列混合,所以在這基礎(chǔ)上出現(xiàn)了很多列存的文件存儲格式,比如ORC,Parquet等,以及支持列模式存儲的數(shù)據(jù)庫(比如Greenplum,Vertica等就有支持列模式的存儲)。

        最后考慮的是硬件,目前典型的并行數(shù)據(jù)庫多使用SAS磁盤,而HDFS使用的容量更大、價格更便宜但性能和可靠性稍差的SATA磁盤。使用這種慢速的磁盤是并行數(shù)據(jù)庫目前最大的瓶頸,使得它無法實現(xiàn)效率和可擴展高可用的兼得。隨著SSD和內(nèi)存的價格越來越便宜,性能的快速提高,后續(xù)面對以SATA接口SSD代替SAS,SATA磁盤的并行數(shù)據(jù)庫,我覺得很快就會到來,現(xiàn)在一些高端的并行數(shù)據(jù)庫一體機就已經(jīng)可以采用全部SSD的配置了,用硬件來解決軟件的問題是最直接有效的方式。

      • 未來展望

      隨著云計算技術(shù)的發(fā)展,我認為以后以云的方式提供數(shù)據(jù)庫服務(wù)會越來越多,無論是企業(yè)內(nèi)部的私有云還是對外的公有云。比如AWS RedShift和Openstack Trove (DBaaS)。這給數(shù)據(jù)庫軟件帶來的變化是它需要支持越來越大的集群,技術(shù)難度加大但經(jīng)濟性更好。這也要求要具備更好的管控能力。數(shù)據(jù)庫軟件需要越來越為大規(guī)模集群設(shè)計。因此我認為,在上述趨勢的發(fā)展之下。并行數(shù)據(jù)庫的軟件模塊或者叫組件的分工會越來越細化。以前只有主節(jié)點和數(shù)據(jù)節(jié)點兩類。有的數(shù)據(jù)庫找一些空的數(shù)據(jù)節(jié)點來作為裝載節(jié)點。那么未來接入節(jié)點、協(xié)調(diào)節(jié)點、元數(shù)據(jù)節(jié)點、日志節(jié)點、安全節(jié)點、SQL解析和優(yōu)化節(jié)點、數(shù)據(jù)裝載和導(dǎo)出節(jié)點、數(shù)據(jù)節(jié)點可能會被單獨分析出來(數(shù)據(jù)節(jié)點的對等性必須得到保護)。并且這些組件的實例均需要支持通過軟件的方式靈活配置數(shù)量等,而不是寫到代碼之中。在架構(gòu)設(shè)計之初就考慮并行、負載分擔和可擴展等。組件之間通過Zookeeper之類的方式進行協(xié)調(diào),實現(xiàn)高可用,松耦合,屏蔽內(nèi)部細節(jié)。

      小結(jié)

      1、 隨著云的發(fā)展,無論是公有云還是私有云,并行數(shù)據(jù)庫可能會發(fā)展的越來越大,專業(yè)性更加強。

      2、 隨著SSD和內(nèi)存的價格越來越便宜,內(nèi)存可能會成為數(shù)據(jù)讀寫的主要發(fā)生點,這將有效的解決當前計算與存儲緊密結(jié)合的并行數(shù)據(jù)庫的難題。 

      來源:https://www./content-2-894101.html

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多