乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Storm:最火的流式處理框架

       Harrison.Ding 2014-01-23

      誕 生

      在2011年Storm開源之前,由于Hadoop的火紅,整個業(yè)界都在喋喋不休地談?wù)摯髷?shù)據(jù)。Hadoop的高吞吐,海量數(shù)據(jù)處理的能力使得人們可以方便地處理海量數(shù)據(jù)。但是,Hadoop的缺點也和它的優(yōu)點同樣鮮明——延遲大,響應(yīng)緩慢,運維復(fù)雜。

      有需求也就有創(chuàng)造,在Hadoop基本奠定了大數(shù)據(jù)霸主地位的時候,很多的開源項目都是以彌補Hadoop的實時性為目標(biāo)而被創(chuàng)造出來。而在這個節(jié)骨眼上Storm橫空出世了。

      Storm帶著流式計算的標(biāo)簽華麗麗滴出場了,看看它的一些賣點:

      • 分布式系統(tǒng):可橫向拓展,現(xiàn)在的項目不帶個分布式特性都不好意思開源。
      • 運維簡單:Storm的部署的確簡單。雖然沒有Mongodb的解壓即用那么簡單,但是它也就是多安裝兩個依賴庫而已。
      • 高度容錯:模塊都是無狀態(tài)的,隨時宕機重啟。
      • 無數(shù)據(jù)丟失:Storm創(chuàng)新性提出的ack消息追蹤框架和復(fù)雜的事務(wù)性處理,能夠滿足很多級別的數(shù)據(jù)處理需求。不過,越高的數(shù)據(jù)處理需求,性能下降越嚴重。
      • 多語言:實際上,Storm的多語言更像是臨時添加上去似的。因為,你的提交部分還是要使用Java實現(xiàn)。

        下面,我們簡單地認識一下Storm這個產(chǎn)品。

      認 識

      Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。

      Storm主要分為兩種組件Nimbus和Supervisor。這兩種組件都是快速失敗的,沒有狀態(tài)。任務(wù)狀態(tài)和心跳信息等都保存在Zookeeper上的,提交的代碼資源都在本地機器的硬盤上。

      • Nimbus負責(zé)在集群里面發(fā)送代碼,分配工作給機器,并且監(jiān)控狀態(tài)。全局只有一個。
      • Supervisor會監(jiān)聽分配給它那臺機器的工作,根據(jù)需要啟動/關(guān)閉工作進程Worker。每一個要運行Storm的機器上都要部署一個,并且,按照機器的配置設(shè)定上面分配的槽位數(shù)。
      • Zookeeper是Storm重點依賴的外部資源。Nimbus和Supervisor甚至實際運行的Worker都是把心跳保存在Zookeeper上的。Nimbus也是根據(jù)Zookeerper上的心跳和任務(wù)運行狀況,進行調(diào)度和任務(wù)分配的。
      • Storm提交運行的程序稱為Topology。
      • Topology處理的最小的消息單位是一個Tuple,也就是一個任意對象的數(shù)組。
      • Topology由Spout和Bolt構(gòu)成。Spout是發(fā)出Tuple的結(jié)點。Bolt可以隨意訂閱某個Spout或者Bolt發(fā)出的Tuple。Spout和Bolt都統(tǒng)稱為component。

      下圖是一個Topology設(shè)計的邏輯圖的例子。

      topology例子2

      下圖是Topology的提交流程圖。

      提交2   

      下圖是Storm的數(shù)據(jù)交互圖??梢钥闯鰞蓚€模塊Nimbus和Supervisor之間沒有直接交互。狀態(tài)都是保存在Zookeeper上。Worker之間通過ZeroMQ傳送數(shù)據(jù)。

      數(shù)據(jù)流圖 

      雖然,有些地方做得還是不太好,例如,底層使用的ZeroMQ不能控制內(nèi)存使用(下個release版本,引入了新的消息機制使用netty代替ZeroMQ),多語言支持更多是噱頭,Nimbus還不支持HA。但是,就像當(dāng)年的Hadoop那樣,很多公司選擇它是因為它是唯一的選擇。而這些先期使用者,反過來促進了Storm的發(fā)展。

      發(fā) 展

      Storm已經(jīng)發(fā)展到0.8.2版本了,看一下兩年多來,它取得的成就:

      • 有50個大大小小的公司在使用Storm,相信更多的不留名的公司也在使用。這些公司中不乏淘寶,百度,Twitter,Groupon,雅虎等重量級公司。
      • 從開源時候的0.5.0版本,到現(xiàn)在的0.8.0+,和即將到來的0.9.0+。先后添加了以下重大的新特性:

        • 使用kryo作為Tuple序列化的框架(0.6.0)
        • 添加了Transactional topologies(事務(wù)性拓撲)的支持(0.7.0)
        • 添加了Trident的支持(0.8.0)
        • 引入netty作為底層消息機制(0.9.0)
      Transactional topologies和Trident都是針對實際應(yīng)用中遇到的重復(fù)計數(shù)問題和應(yīng)用性問題的解決方案。可以看出,實際的商用給予了Storm很多良好的反饋。
      • 在GitHub上超過4000個項目負責(zé)人。Storm集成了許多庫,支持包括Kestrel、Kafka、JMS、Cassandra、Memcached以及更多系統(tǒng)。隨著支持的庫越來越多,Storm更容易與現(xiàn)有的系統(tǒng)協(xié)作。

        Storm的擁有一個活躍的社區(qū)和一群熱心的貢獻者。過去兩年,Storm的發(fā)展是成功的。

      當(dāng) 前

      Storm被廣泛應(yīng)用于實時分析,在線機器學(xué)習(xí),持續(xù)計算、分布式遠程調(diào)用等領(lǐng)域。來看一些實際的應(yīng)用:

      • 一淘-實時分析系統(tǒng)pora:實時分析用戶的屬性,并反饋給搜索引擎。最初,用戶屬性分析是通過每天在云梯上定時運行的MR job來完成的。為了滿足實時性的要求,希望能夠?qū)崟r分析用戶的行為日志,將最新的用戶屬性反饋給搜索引擎,能夠為用戶展現(xiàn)最貼近其當(dāng)前需求的結(jié)果。
      • 攜程-網(wǎng)站性能監(jiān)控:實時分析系統(tǒng)監(jiān)控攜程網(wǎng)的網(wǎng)站性能。利用HTML5提供的performance標(biāo)準(zhǔn)獲得可用的指標(biāo),并記錄日志。Storm集群實時分析日志和入庫。使用DRPC聚合成報表,通過歷史數(shù)據(jù)對比等判斷規(guī)則,觸發(fā)預(yù)警事件。

        如果,業(yè)務(wù)場景中需要低延遲的響應(yīng),希望在秒級或者毫秒級完成分析、并得到響應(yīng),而且希望能夠隨著數(shù)據(jù)量的增大而拓展。那就可以考慮下,使用Storm了。

      • 試想下,如果,一個游戲新版本上線,有一個實時分析系統(tǒng),收集游戲中的數(shù)據(jù),運營或者開發(fā)者可以在上線后幾秒鐘得到持續(xù)不斷更新的游戲監(jiān)控報告和分析結(jié)果,然后馬上針對游戲的參數(shù)和平衡性進行調(diào)整。這樣就能夠大大縮短游戲迭代周期,加強游戲的生命力(實際上,zynga就是這么干的!雖然使用的不是 Storm……Zynga研發(fā)之道探秘:用數(shù)據(jù)說話)。 

      • 除了低延遲,Storm的Topology靈活的編程方式分布式協(xié)調(diào)也會給我們帶來方便。用戶屬性分析的項目,需要處理大量的數(shù)據(jù)。使用傳統(tǒng)的MapReduce處理是個不錯的選擇。但是,處理過程中有個步驟需要根據(jù)分析結(jié)果,采集網(wǎng)頁上的數(shù)據(jù)進行下一步的處理。這對于MapReduce來說就不太適用了。但是,Storm的Topology就能完美解決這個問題?;谶@個問題,我們可以畫出這樣一個Storm的Topology的處理圖。

      用戶分詞

      我們只需要實現(xiàn)每個分析的過程,而Storm幫我們把消息的傳送和接受都完成了。更加激動人心的是,你只需要增加某個Bolt的并行度就能夠解決掉某個結(jié)點上的性能瓶頸。

      未 來

       在流式處理領(lǐng)域里,Storm的直接對手是S4。不過,S4冷淡的社區(qū)、半成品的代碼,在實際商用方面輸給Storm不止一條街。

       如果把范圍擴大到實時處理,Storm就一點都不寂寞了。

      • Puma:Facebook使用puma和Hbase相結(jié)合來處理實時數(shù)據(jù),使批處理 計算平臺具備一定實時能力。 不過這不算是一個開源的產(chǎn)品。只是內(nèi)部使用。
      • HStreaming:嘗試為Hadoop環(huán)境添加一個實時的組件HStreaming能讓一個Hadoop平臺在幾天內(nèi)轉(zhuǎn)為一個實時系統(tǒng)。分商業(yè)版和免費版。也許HStreaming可以借Hadoop的東風(fēng),撼動Storm。
      • Spark Streaming:作為UC Berkeley云計算software stack的一部分,Spark Streaming是建立在Spark上的應(yīng)用框架,利用Spark的底層框架作為其執(zhí)行基礎(chǔ),并在其上構(gòu)建了DStream的行為抽象。利用 DStream所提供的api,用戶可以在數(shù)據(jù)流上實時進行count,join,aggregate等操作。

        當(dāng)然,Storm也有Yarn-Storm項目,能讓Storm運行在Hadoop2.0的Yarn框架上,可以讓Hadoop的MapReduce和Storm共享資源。

      總 結(jié)

      知乎上有一個挺好的問答: 問:實時處理系統(tǒng)(類似s4, storm)對比直接用MQ來做好處在哪里?  答:好處是它幫你做了: 1) 集群控制。2) 任務(wù)分配。3) 任務(wù)分發(fā) 4) 監(jiān)控 等等。

      需要知道Storm不是一個完整的解決方案。使用Storm你需要加入消息隊列做數(shù)據(jù)入口,考慮如何在流中保存狀態(tài),考慮怎樣將大問題用分布式去解決。解決這些問題的成本可能比增加一個服務(wù)器的成本還高。但是,一旦下定決定使用了Storm并解決了那些惱人的細節(jié),你就能享受到Storm給你帶來的簡單,可拓展等優(yōu)勢了。

      技術(shù)的發(fā)展日新月異,數(shù)據(jù)處理領(lǐng)域越來越多優(yōu)秀的開源產(chǎn)品。Storm的過去是成功的,將來會如何發(fā)展,我們拭目以待吧。

      后記

      本文的重點是描述Storm的應(yīng)用場景和未來的發(fā)展前景,讓大家對Storm有一個初步的印象。如果,要落地使用的朋友,在網(wǎng)上可以找到很多優(yōu)秀的Storm的技術(shù)文章。例如:Storm的核心貢獻者徐明明的博客和淘寶關(guān)于storm的文章。

      原文鏈接:http://tech.uc.cn/?p=2159

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多