乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      在Hadoop上運(yùn)行SQL:程序員需知曉的13種數(shù)據(jù)工具

       hh3755 2013-09-11

      在GigaOM安排Structure: Data的日程的時(shí)候,就意識到很有必要討論在Hadoop上運(yùn)行SQL查詢,然而卻未認(rèn)識到Hadoop上運(yùn)行SQL查詢竟然變的這么重要。本文是Gigaom的資深編輯Derrick Harris 撰寫的一篇文章 ,CSDN編譯如下:

      其實(shí),對SQL支持并不是Hadoop的最終目標(biāo),但是這一特性將會幫助Hadoop找尋自己的生存方式,讓Hadoop在那些已經(jīng)明白下一代分析的重要性但又不想邁向MapReduce專家之路的公司中取得一席之地。

      當(dāng)然,F(xiàn)acebook發(fā)起了整場運(yùn)動(dòng) ——在2009年創(chuàng)造了Hive,它把類似數(shù)據(jù)庫SQL查詢功能引向了Hadoop 。Hive現(xiàn)在已經(jīng)是Apache的一個(gè)開源項(xiàng)目,包括數(shù)據(jù)管理層以及類SQL的結(jié)構(gòu)化查詢語言HiveQL。在過去的數(shù)年里,Hive的確是非常有用而且很流行,但是由于Hive對MapReduce依賴,查詢速度有著“先天性不足”,因?yàn)樵诓樵兊倪^程中,MapReduce需要掃描整個(gè)數(shù)據(jù)集,而且在Job的處理過程中還需要把大量的數(shù)據(jù)傳輸?shù)骄W(wǎng)絡(luò)。對主流用戶而言,難以有很大的吸引力。

      請記住,下一代的SQL-on-Hadoop工具并不僅僅只是商業(yè)智能,也不是僅僅只能讀取存儲在Hadoop上數(shù)據(jù)的數(shù)據(jù)庫產(chǎn)品, EMC Greenplum, HP Vertica, IBM Netezza, ParAccel, Microsoft SQL Server以及Teradata/Aster Data全部都允許某些方式的Hadoop數(shù)據(jù)查詢。而且這些是應(yīng)用,框架以及可以讓用戶從內(nèi)部進(jìn)行Hadoop數(shù)據(jù)查詢的引擎,有時(shí)候也會重構(gòu)底層計(jì)算以及數(shù)據(jù)基礎(chǔ)設(shè)施。這種方式的優(yōu)點(diǎn)在于:可以利用已有存儲形式的數(shù)據(jù),從理論上講,對數(shù)據(jù)的分析應(yīng)用就不需要再訪問兩個(gè)獨(dú)立的數(shù)據(jù)存儲。

      數(shù)據(jù)倉庫和BI:The Structure: Data set

      Apache Drill: Drill是由MapR主導(dǎo)、基于Hadoop之上的類似于谷歌的Demel(或者說BigQuery)交互式查詢引擎。首次公布在8月份,不過該項(xiàng)目正處在開發(fā)階段,也是Apache的孵化器計(jì)劃,根據(jù)其網(wǎng)站所言:“(Drill)明確的目標(biāo)就是擴(kuò)展到10000臺服務(wù)器,而且能夠在幾秒鐘之內(nèi)處理PB級的數(shù)據(jù)和數(shù)萬億條的記錄?!?/p>


      MapR的產(chǎn)品管理總監(jiān)Tomer Shiran表示:“Drill與MapReduce相輔相成。在谷歌,數(shù)以千計(jì)的工程師每天都在使用Dremel和MapReduce,未來也將有著更多的人來使用Drill與MapReduce。 ”


      Hadapt:Hadapt實(shí)際上在2011年的Structure: Data大會上發(fā)布,它也是第一批SQL-on-Hadoop的廠商之一,其獨(dú)特之處在于,在市場上已經(jīng)有了真正的產(chǎn)品,而且已經(jīng)培育了自己的客戶群。其獨(dú)一無二的架構(gòu)包括先進(jìn)的SQL分析工具,為MapReduce以及相關(guān)任務(wù)打造的split-execution引擎,也包含HDFS和相關(guān)的存儲。

      Hadapt提供了一體化的分析環(huán)境,旨在對Hadoop里面的數(shù)據(jù)執(zhí)行分析操作,還能對SQL環(huán)境中傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。而Hadapt的平臺設(shè)計(jì)成了可以在私有云或公共云環(huán)境上運(yùn)行,提供了從一個(gè)環(huán)境就能訪問所有數(shù)據(jù)的優(yōu)點(diǎn),所以除了MapReduce流程和大數(shù)據(jù)分析工具外,現(xiàn)有的基于SQL的工具也可以使用。Hadapt可以在Hadoop層和關(guān)系數(shù)據(jù)庫層之間自動(dòng)劃分查詢執(zhí)行任務(wù),提供了Hadapt所謂的優(yōu)化環(huán)境,這種環(huán)境可以充分利用Hadoop的可擴(kuò)展性和關(guān)系數(shù)據(jù)庫技術(shù)的快速度。

      Platfora:從技術(shù)來講,這并不是一個(gè)SQL產(chǎn)品,Platfora現(xiàn)在是“紅的發(fā)紫”,而且意圖打造大數(shù)據(jù)商業(yè)智能(BI)的新藍(lán)圖。大家都知道,如何能夠把冗雜的數(shù)據(jù)(不管是郵件、文檔、音頻等)進(jìn)行有效處理、視覺化,讓它變成普通的用戶都能看得懂的東西,“數(shù)據(jù)”才能真正變得有價(jià)值。但是Hadpoop只有一小部分開發(fā)者(相對而言)在使用,而Platfora卻想把它變成一個(gè)任何人都可以理解、使用的工具。雖然也有其他的創(chuàng)業(yè)者在做類似的事情,但是Platfora在數(shù)據(jù)處理速度上有明顯的優(yōu)勢,同時(shí)非常直觀,并且他們在用HTML5的canvas來做解決方案,既可以保證操作簡便又能兼容不同設(shè)備上的數(shù)據(jù),公司在10月份進(jìn)行的產(chǎn)品發(fā)布。

      Qubole:Qubole是一個(gè)建設(shè)云平臺進(jìn)行數(shù)據(jù)分析和處理的創(chuàng)業(yè)公司。聯(lián)合創(chuàng)始人兼CEO是Ashishi Thusoo,在創(chuàng)辦Qubole之前,Ashishi負(fù)責(zé)Facebook數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊(duì)。在他的領(lǐng)導(dǎo)下,團(tuán)隊(duì)創(chuàng)造了世界上最大的數(shù)據(jù)分析與處理平臺。他也是Apache Hive項(xiàng)目的聯(lián)合創(chuàng)始人,并作為該項(xiàng)目的Apache軟件基金會的創(chuàng)始副總裁。Qubole聲稱具有自動(dòng)擴(kuò)展能力,并且對Hadoop代碼做過優(yōu)化,高速的列數(shù)據(jù)緩存可以讓其服務(wù)比單獨(dú)運(yùn)行Hive時(shí)要快很多。Qubole運(yùn)行在AWS上,相對而言,這比維護(hù)一個(gè)物理集群要容易得多。

      數(shù)據(jù)倉庫和BI:續(xù)篇

      “foreign data wrappers”,它能夠把多種數(shù)據(jù)類型(像CSV, log以及JSON files,而且這些數(shù)據(jù)類型在原生的Postgres上是并不匹配的)轉(zhuǎn)化成數(shù)據(jù)庫的原生類型,接下來在幾秒鐘之內(nèi)就能使用其特有的分布式處理技術(shù)來完成查詢。由于其Postgres的功能,CitusDB也能連接不同的數(shù)據(jù)源(比如Postgres-Hadoop),這樣就不需要用戶進(jìn)行獨(dú)立的查詢,然后再手動(dòng)地連接數(shù)據(jù)。

      Cloudera Impala:Cloudera Impala可能是SQL-on-Hadoop上最重要的成果,這是一個(gè)大規(guī)模的并行處理引擎,成功避開了MapReduce進(jìn)行交互式地查詢部署在HDFS或者Hbase中的數(shù)據(jù)。不過,因?yàn)镃loudera并不構(gòu)建應(yīng)用程序,它依賴更高層次的BI和分析合作伙伴為用戶提供接口。

      Impala的架構(gòu)(來自ZDNet)

      Karmasphere:就像Hive一樣,Karmasphere也是依賴于MapReduce處理查詢,這也就意味著其速度要慢于其他的新途徑。與Hive不同的是,Karmasphere允許并行查詢,而且其包含一個(gè)可視化的界面,可以用于編寫查詢以及過濾查詢結(jié)果。

      Karmasphere提供了直接訪問Hadoop里面結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)點(diǎn),它還可以運(yùn)用SQL及其他語言,用于即席查詢和進(jìn)一步的分析。使用SQL及其他語言,用戶就能創(chuàng)建即席查詢,然后處理結(jié)果。Karmasphere Studio為開發(fā)人員提供了一種圖形化環(huán)境,可以在里面開發(fā)自定義算法,為應(yīng)用程序和可重復(fù)的生產(chǎn)流程創(chuàng)建實(shí)用的數(shù)據(jù)集。

      Lingual:Lingual是來自Concurrent的一個(gè)新的開源項(xiàng)目,其母公司從事Hadoop Cascading框架設(shè)計(jì)。Lingual運(yùn)行在Cascading之上,(Cascading是一個(gè)架構(gòu)在Hadoop上的API,用來創(chuàng)建復(fù)雜和容錯(cuò)數(shù)據(jù)處理工作流。它抽象了集群拓?fù)浣Y(jié)構(gòu)和配置來快速開發(fā)復(fù)雜分布式的應(yīng)用,而不用考慮背后的MapReduce),并提供給開發(fā)者和分析師一個(gè)真正的ANSI SQL接口,在其之上可以運(yùn)行分析或者是構(gòu)建應(yīng)用。Lingual兼容傳統(tǒng)的BI工具,JDBC以及Cascading系的API。

      Phoenix:Phoenix是一個(gè)新的,相對來說并不為人知的一個(gè)開源項(xiàng)目,出自Salesforce.com,旨在打造一個(gè)更快的SQL查詢,面向的對象有HBase或者是部署在HDFS之上的NoSQL數(shù)據(jù)庫。用戶通過JDBC接口與其進(jìn)行交互。

      Shark:Shark雖然不是技術(shù)上的Hadoop,但是它們也有很深的淵源。Shark,從一定意義上 說代表了“Hive on Spark”,使用Hive也就意味著它與Hadoop也存在著密切的關(guān)系。使用Shark運(yùn)行并行處理Job要比MapReduce快100倍,Shark宣稱對比傳統(tǒng)的Hive而言,這是一個(gè)巨大的提升。

      Stinger Initiative:Stinger Initiative是由Hortonworks主導(dǎo)的 一個(gè)科研成果,可以讓Hive的速度提升高達(dá)100倍,而且引入了更多的功能。Stinger為Hive添加了更多的SQL分析能力,但是最關(guān)鍵的方面在于底層基礎(chǔ)設(shè)施的提升:一個(gè)優(yōu)化的執(zhí)行引擎,一個(gè)列式文件格式,能夠避免MapReduce的運(yùn)行瓶頸。

      Operational SQL

      Drawn to Scale:Drawn to Scale也是一家初創(chuàng)公司,它在HBase之上構(gòu)建了一個(gè) SQL數(shù)據(jù)庫,這里的關(guān)鍵詞是“數(shù)據(jù)庫”。其產(chǎn)品稱之為Spire,它仿照了谷歌的F1設(shè)計(jì)。Spire擁有一個(gè)分布式索引,所有的查詢只發(fā)送給相關(guān)數(shù)據(jù)的存儲節(jié)點(diǎn),所以其讀取和寫入的速度都很快,系統(tǒng)還能夠處理大量的并發(fā)用戶。

      Splice Machine:Splice Machine(數(shù)據(jù)庫初創(chuàng)公司)也嘗試通過在原生的HBase分布式數(shù)據(jù)庫上建立其Splice SQL Engine來取得一席之地。Splice Machine關(guān)注的是事務(wù)完整性,這也是它區(qū)別于可擴(kuò)展的NoSQL數(shù)據(jù)庫和分析類SQL-on-Hadoop產(chǎn)品的特色所在。它依賴于HBase的auto-sharding功能,這也是為了讓擴(kuò)展變得更加容易

        本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多