十八款Hadoop工具幫你馴服大數(shù)據(jù)

BIN825 2015-11-19

展開全文

十八款Hadoop工具幫你馴服大數(shù)據(jù)

2013-12-12 09:39 核子可樂譯 51CTO.com 字號：T | T

Hadoop業(yè)界正在迅速發(fā)展，從業(yè)企業(yè)拿出的解決方案也多種多樣，其中包括提供技術(shù)支持、在托管集群中提供按時租用服務(wù)、為這套開源核心開發(fā)先進(jìn)的功能強(qiáng)化或者將自有工具添加到方案組合當(dāng)中。本文中，我們將一同了解當(dāng)下Hadoop生態(tài)系統(tǒng)當(dāng)中那些最為突出的杰作。

AD：【活動】Web和APP兼容性實(shí)戰(zhàn) Win10訓(xùn)練營免費(fèi)報(bào)名

【2013年12月12日 51CTO外電頭條】Hadoop已經(jīng)通過自身的蓬勃發(fā)展證明，它不僅僅是一套用于將工作內(nèi)容傳播到計(jì)算機(jī)群組當(dāng)中的小型堆棧--不，這與它的潛能相比簡直微不足道。這套核心的價(jià)值已經(jīng)被廣泛證實(shí)，目前大量項(xiàng)目如雨后春筍般圍繞它建立起來。有些項(xiàng)目負(fù)責(zé)數(shù)據(jù)管理、有些負(fù)責(zé)流程監(jiān)控、還有一些則提供先進(jìn)的數(shù)據(jù)存儲機(jī)制。

Hadoop業(yè)界正在迅速發(fā)展，從業(yè)企業(yè)拿出的解決方案也多種多樣，其中包括提供技術(shù)支持、在托管集群中提供按時租用服務(wù)、為這套開源核心開發(fā)先進(jìn)的功能強(qiáng)化或者將自有工具添加到方案組合當(dāng)中。

在今天的文章中，我們將一同了解當(dāng)下Hadoop生態(tài)系統(tǒng)當(dāng)中那些最為突出的杰作?？傮w而言，這是一套由眾多工具及代碼構(gòu)成的堅(jiān)實(shí)基礎(chǔ)、共同聚集在"Hadoop"這面象征著希望的大旗之下。

Hadoop

雖然很多人會把映射與規(guī)約工具廣義化稱為Hadoop，但從客觀角度講、其實(shí)只有一小部分核心代碼算是真正的Hadoop。多個工作節(jié)點(diǎn)負(fù)責(zé)對保存在本地的數(shù)據(jù)進(jìn)行功能執(zhí)行，而基于Java的代碼則對其加以同步。這些工作節(jié)點(diǎn)得到的結(jié)果隨后經(jīng)過匯總并整理為報(bào)告。第一個步驟被稱為"映射（即map）"，而第二步驟則被稱為"規(guī)約（reduce）"。

Hadoop為本地?cái)?shù)據(jù)存儲與同步系統(tǒng)提供一套簡化抽象機(jī)制，從而保證程序員能夠?qū)⒆⒁饬性诰帉懘a以實(shí)現(xiàn)數(shù)據(jù)分析工作上，其它工作交給Hadoop處理即可。Hadoop會將任務(wù)加以拆分并設(shè)計(jì)執(zhí)行規(guī)程。錯誤或者故障在意料之中，Hadoop的設(shè)計(jì)初衷就在于適應(yīng)由單獨(dú)設(shè)備所引發(fā)的錯誤。

項(xiàng)目代碼遵循Apache許可機(jī)制。

官方網(wǎng)站：hadoop.

Ambari

Hadoop集群的建立需要涉及大量重復(fù)性工作。Ambari提供一套基于Web的圖形用戶界面并配備引導(dǎo)腳本，能夠利用大部分標(biāo)準(zhǔn)化組件實(shí)現(xiàn)集群設(shè)置。在大家采納Ambari并將其付諸運(yùn)行之后，它將幫助各位完成配置、管理以及監(jiān)管等重要的Hadoop集群相關(guān)任務(wù)。上圖顯示的就是集群啟動后Ambari所顯示的信息屏幕。

Ambari屬于Apache旗下的衍生項(xiàng)目，并由Hortonworks公司負(fù)責(zé)提供支持。

下載地址：http://incubator./ambari/

HDFS (即Hadoop分布式文件系統(tǒng))

Hadoop分布式文件系統(tǒng)提供一套基礎(chǔ)框架，專門用于拆分收集自不同節(jié)點(diǎn)之間的數(shù)據(jù)，并利用復(fù)制手段在節(jié)點(diǎn)故障時實(shí)現(xiàn)數(shù)據(jù)恢復(fù)。大型文件會被拆分成數(shù)據(jù)塊，而多個節(jié)點(diǎn)能夠保留來自同一個文件的所有數(shù)據(jù)塊。上圖來自Apache公布的說明文檔，旨在展示數(shù)據(jù)塊如何分布至各個節(jié)點(diǎn)當(dāng)中。

這套文件系統(tǒng)的設(shè)計(jì)目的在于同時實(shí)現(xiàn)高容錯性與高數(shù)據(jù)吞吐能力的結(jié)合。加載數(shù)據(jù)塊能夠保持穩(wěn)定的信息流通，而低頻率緩存處理則將延遲降至最小。默認(rèn)模式假設(shè)的是需要處理大量本地存儲數(shù)據(jù)的長時間作業(yè)，這也吻合該項(xiàng)目所提出的"計(jì)算能力遷移比數(shù)據(jù)遷移成本更低"的座右銘。

HDFS同樣遵循Apache許可。

官方網(wǎng)站：hadoop.

HBase

當(dāng)數(shù)據(jù)被匯總成一套規(guī)模龐大的列表時，HBase將負(fù)責(zé)對其進(jìn)行保存、搜索并自動在不同節(jié)點(diǎn)之間共享該列表，從而保證MapReduce作業(yè)能夠以本地方式運(yùn)行。即使列表中容納的數(shù)據(jù)行數(shù)量高達(dá)數(shù)十億，該作業(yè)的本地版本仍然能夠?qū)ζ溥M(jìn)行查詢。

該代碼并不能提供其它全功能數(shù)據(jù)庫所遵循的ACID保證，但它仍然為我們帶來一部分關(guān)于本地變更的承諾。所有衍生版本的命運(yùn)也都維系在一起--要么共同成功、要么一起失敗。

這套系統(tǒng)通常被與谷歌的BigTable相提并論，上圖所示為來自HareDB（一套專為HBase打造的圖形用戶界面客戶端）的截圖。

官方網(wǎng)站：hbase.

Hive

將數(shù)據(jù)導(dǎo)入集群還只是大數(shù)據(jù)分析的第一步。接下來我們需要提取HBase中來自文件的所有數(shù)據(jù)內(nèi)容，而Hive的設(shè)計(jì)初衷在于規(guī)范這一提取流程。它提供一套SQL類語言，用于深入發(fā)掘文件內(nèi)容并提取出代碼所需要的數(shù)據(jù)片段。這樣一來，所有結(jié)果數(shù)據(jù)就將具備標(biāo)準(zhǔn)化格式，而Hive則將其轉(zhuǎn)化為可直接用于查詢的存儲內(nèi)容。

上圖所示為Hive代碼，這部分代碼的作用在于創(chuàng)建一套列表、向其中添加數(shù)據(jù)并選擇信息。

Hive由Apache項(xiàng)目負(fù)責(zé)發(fā)行。

官方網(wǎng)站：hive.

Sqoop

要將蘊(yùn)藏在SQL數(shù)據(jù)庫中的數(shù)據(jù)寶庫發(fā)掘出來并交給Hadoop打理需要進(jìn)行一系列調(diào)整與操作。Sqoop負(fù)責(zé)將飽含信息的大型列表從傳統(tǒng)數(shù)據(jù)庫中移動到Hive或者HBase等工具的控制之下。

Sqoop是一款命令行工具，能夠控制列表與數(shù)據(jù)存儲層之間的映射關(guān)系，并將列表轉(zhuǎn)化為可為HDFS、HBase或者Hive所接納的可配置組合。上圖所示為Apache文檔材料中的內(nèi)容，可以看到Sqoop位于傳統(tǒng)庫與節(jié)點(diǎn)上的Hadoop結(jié)構(gòu)之間。

Sqoop的最新穩(wěn)定版本為1.4.4，但目前其2.0版本同樣進(jìn)展順利。兩個版本目前都可供下載，且遵循Apache許可。

官方網(wǎng)站：sqoop.

Pig

一旦數(shù)據(jù)以Hadoop能夠識別的方式被保存在節(jié)點(diǎn)當(dāng)中，有趣的分析工作將由此展開。Apache的Pig會用自己的小"豬拱"梳理數(shù)據(jù)，運(yùn)行利用自有語言（名為Pig Latin）所編寫的代碼，并添加處理數(shù)據(jù)所需要的各種抽象機(jī)制。這樣的結(jié)構(gòu)會一步步指引用戶走向那些易于以并行方式運(yùn)行在整個集群當(dāng)中的算法。

Pig還擁有一系列針對常見任務(wù)的標(biāo)準(zhǔn)化功能，能夠輕松處理諸如數(shù)據(jù)平均值計(jì)算、日期處理或者字符串差異比較等工作。如果這些還不夠用--實(shí)際上一般都不夠用--大家還可以動手編寫屬于自己的功能。上圖所示為Apache說明文檔中的一項(xiàng)實(shí)例，解釋了用戶如何將自己的代碼與Pig代碼結(jié)合起來、從而實(shí)現(xiàn)數(shù)據(jù)發(fā)掘。

目前Pig的最新版本為0.12.0。

官方網(wǎng)站：pig.

ZooKeeper

一旦Hadoop需要在大量設(shè)備之上，集群運(yùn)作的順序就顯得非常重要，特別是在其中某些設(shè)備開始簽出的情況下。

ZooKeeper在集群中強(qiáng)制執(zhí)行一套文件系統(tǒng)式的層級結(jié)構(gòu)，并為設(shè)備保存所有元數(shù)據(jù)，這樣我們就可以在不同設(shè)備之間進(jìn)行作業(yè)同步。（上圖所示為一套簡單的二層式集群。）說明文檔展示了如何在數(shù)據(jù)處理流程中實(shí)施多種標(biāo)準(zhǔn)化技術(shù)，例如生產(chǎn)方-消費(fèi)方隊(duì)列，從而保證數(shù)據(jù)能夠以正確的順序進(jìn)行拆分、清理、篩選以及分類。當(dāng)上述過程結(jié)束后，使用ZooKeeper的節(jié)點(diǎn)會彼此通信、并以最終生成的數(shù)據(jù)為起點(diǎn)開始分析工作。

如果大家希望了解更多信息、說明文檔以及最新版本，請?jiān)L問ZooKeeper的官方網(wǎng)站。

官方網(wǎng)站：zookeeper.

NoSQL

并不是所有Hadoop集群都會使用HBase或者HDFS。某些集成了NoSQL的數(shù)據(jù)存儲體系會采取自己的獨(dú)特機(jī)制實(shí)現(xiàn)跨集群各節(jié)點(diǎn)的數(shù)據(jù)存儲任務(wù)。在這種情況下，此類體系能夠利用NoSQL數(shù)據(jù)庫的全部功能對數(shù)據(jù)進(jìn)行存儲與檢索，而后利用Hadoop規(guī)劃同一集群當(dāng)中的數(shù)據(jù)分析作業(yè)。

此類方案中最為常見的當(dāng)數(shù)Cassandra、Riak或者M(jìn)ongoDB，而用戶則在積極探索將這兩種技術(shù)加以結(jié)合的最佳方式。作為MongoDB的主要支持廠商之一，10Gen公司建議用戶利用Hadoop進(jìn)行離線分析，而MongoDB同時仍然能夠以實(shí)時方式統(tǒng)計(jì)來自Web的數(shù)據(jù)。上圖所示為連接器如何實(shí)現(xiàn)兩套體系之間的數(shù)據(jù)遷移。

Mahout

目前能夠幫助我們進(jìn)行數(shù)據(jù)分析、分類以及篩選的算法多種多樣，而Mahout項(xiàng)目的設(shè)計(jì)目的正是為了將這些算法引入Hadoop集群當(dāng)中。大多數(shù)標(biāo)準(zhǔn)化算法，例如K-Means、Dirichelet、并行模式以及貝葉斯分類等，都能夠讓我們的數(shù)據(jù)同Hadoop類型的映射與規(guī)約機(jī)制進(jìn)行協(xié)作。

上圖所示為一套篷聚類集群化算法，它選擇點(diǎn)與半徑來構(gòu)成圓圈、從而覆蓋整個點(diǎn)集合中的對應(yīng)部分。這只是眾多Hadoop內(nèi)置數(shù)據(jù)分析工具之一。

Mahout從屬于Apache項(xiàng)目并遵循Apache許可。

官方網(wǎng)站：mahout.

Lucene/Solr

這是目前惟一的一款用于檢索非結(jié)構(gòu)化文本大型塊的工具，它同時也是Hadoop的天生合作伙伴。由于利用Java編寫，Lucene能夠輕松與Hadoop展開協(xié)作，共同創(chuàng)建出一套用于分布式文本管理的大型工具。Lucene負(fù)責(zé)處理檢查任務(wù)、Hadoop則負(fù)責(zé)將查詢分布到整個集群當(dāng)中。

新的Lucene-Hadoop功能正迅速發(fā)展成為全新項(xiàng)目。以Katta為例，作為Lucene的衍生版本，它能自動對整個集群進(jìn)行解析。Solr則提供集成度更高的動態(tài)集群化解決方案，能夠解析XML等標(biāo)準(zhǔn)化文件格式。上圖所示為Luke，一款用于Lucene瀏覽的圖形用戶界面。它現(xiàn)在還提供插件、用于對Hadoop集群進(jìn)行瀏覽檢索。

Lucene及其多個衍生版本都屬于Apache項(xiàng)目的組成部分。

官方網(wǎng)站：www.

Avro

當(dāng)Hadoop作業(yè)需要進(jìn)行數(shù)據(jù)共享時，我們完全可以使用任何一種數(shù)據(jù)庫加以實(shí)現(xiàn)。但Avro是一套序列化系統(tǒng)，能夠利用一定模式將數(shù)據(jù)整理起來并加以理解。每一個數(shù)據(jù)包都附帶一種JSON數(shù)據(jù)結(jié)構(gòu)，用于解釋數(shù)據(jù)的具體解析方式。這種數(shù)據(jù)頭會指定數(shù)據(jù)結(jié)構(gòu)，從而避免我們在數(shù)據(jù)中編寫額外的標(biāo)簽來對字段進(jìn)行標(biāo)記。如此一來，當(dāng)共享數(shù)據(jù)較為規(guī)律時，其體積將比傳統(tǒng)格式（例如XML或者JSON）更為緊湊。

上圖所示為針對某個文件的Avro處理模式，其中分為三種不同字段：姓名、最喜歡的數(shù)字與最喜歡的顏色。

Avro同樣屬于Apache項(xiàng)目的組成部分，其代碼擁有Java、C++以及Python等多個語言版本。

官方網(wǎng)站：avro.

Oozie

將一項(xiàng)作業(yè)拆分成多個步驟能夠讓工作變得更為簡單。如果大家將自己的項(xiàng)目拆分成數(shù)個Hadoop作業(yè)，那么Oozie能夠以正確的順序?qū)⑵浣M合起來并加以執(zhí)行。大家不需要插手堆棧調(diào)整，等待一個堆棧執(zhí)行結(jié)束后再啟動另一個。Oozie能夠按照DAG（即有向無環(huán)圖）的規(guī)范對工作流加以管理。（環(huán)圖相當(dāng)于無限循環(huán)，對于計(jì)算機(jī)來說就像一種陷阱。）只需將DAG交給Oozie，我們就可以放心出去吃飯了。

上圖所示為來自O(shè)ozie說明文檔的一幅流程圖。Oozie代碼受到Apache許可的保護(hù)。

官方網(wǎng)站：oozie.

GIS工具

咱們生活的世界相當(dāng)廣闊，因此讓運(yùn)行Hadoop的集群與地理地圖協(xié)作也是項(xiàng)難度很高的任務(wù)。針對Hadoop項(xiàng)目的GIS（即地理信息系統(tǒng)）工具采用多種基于Java的最佳工具，能夠透徹理解地理信息并使其與Hadoop共同運(yùn)行。我們的數(shù)據(jù)庫將通過坐標(biāo)而非字符串來處理地理查詢，我們的代碼則通過部署GIS工具來計(jì)算三維空間。有了GIS工具的幫助，大家面臨的最大難題只剩下正確解讀"map"這個詞--它到底代表的是象征整個世界的平面圖形，還是Hadoop作業(yè)當(dāng)中的第一步、也就是"映射"？

上圖所示為說明文檔中關(guān)于這些工具的不同層級。目前這些工具可在GitHub上進(jìn)行下載。

下載地址：http://esri./gis-tools-for-hadoop/

Flume

數(shù)據(jù)收集這項(xiàng)任務(wù)絕對不比數(shù)據(jù)存儲或者數(shù)據(jù)分析更輕松。作為又一個Apache項(xiàng)目，F(xiàn)lume能夠通過分派"代理"以收集信息并將結(jié)果保存在HDFS當(dāng)中。每一個代理可以收集日志文件、調(diào)用Twitter API或者提取網(wǎng)站數(shù)據(jù)。這些代理由事件觸發(fā)，而且可以被鏈接在一起。由此獲得的數(shù)據(jù)隨后即可供分析使用。

Flume項(xiàng)目的代碼受Apache許可保護(hù)。

官方網(wǎng)站：flume.

Hadoop上的SQL

如果大家希望在自己的大型集群當(dāng)中對全部數(shù)據(jù)來一次快速的臨時性查詢，正常來說需要編寫一個新的Hadoop作業(yè)，這自然要花上一些時間。過去程序員們多次掉進(jìn)過這同一個坑里，于是大家開始懷念老式SQL數(shù)據(jù)庫--利用相對簡單的SQL語言，我們就能為問題找到答案。從這一思路出發(fā)，眾多公司開發(fā)出一系列新興工具，這些方案全部指向更為快捷的應(yīng)答途徑。

其中最引人注目的方案包括：HAWQ、Impalla、Drill、Stinger以及Tajo。此類方案數(shù)量眾多，足夠另開一個全新專題。

云計(jì)算

很多云平臺都在努力吸引Hadoop作業(yè)，這是因?yàn)槠浒捶昼娪?jì)算租金的靈活業(yè)務(wù)模式非常適合Hadoop的實(shí)際需求。企業(yè)可以在短時間內(nèi)動用數(shù)千臺設(shè)備進(jìn)行大數(shù)據(jù)處理，而不必再像過去那樣永久性購入機(jī)架、再花上幾天或者幾周時間執(zhí)行同樣的計(jì)算任務(wù)。某些企業(yè)，例如Amazon，正在通過將JAR文件引入軟件規(guī)程添加新的抽象層。一切其它設(shè)置與調(diào)度工作都可由云平臺自行完成。

上圖所示為Martin Abegglen在Flickr上發(fā)表的幾臺刀片計(jì)算機(jī)。

Spark

未來已然到來。對于某些算法，Hadoop的處理速度可能慢得令人抓狂--這是因?yàn)樗ǔＲ蕾囉诖鎯υ诖疟P上的數(shù)據(jù)。對于日志文件這種只需讀取一次的處理任務(wù)來說，速度慢些似乎還可以忍受；但一旦把范圍擴(kuò)大到所有負(fù)載，那些需要一次又一次訪問數(shù)據(jù)的人工智能類程序可能因?yàn)樗俣冗^慢而根本不具備實(shí)用價(jià)值。

Spark代表著下一代解決思路。它與Hadoop的工作原理相似，但面向的卻是保存在內(nèi)存緩存中的數(shù)據(jù)。上圖來自Apache說明文檔，其中演示的是Spark在理想狀態(tài)下與Hadoop之間的處理速度對比。

Spark項(xiàng)目正處于Apache開發(fā)當(dāng)中。

官方網(wǎng)站：spark.incubator.

原文鏈接：http://www./slideshow/131105/18-essential-hadoop-tools-crunching-big-data-232123#slide1

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： BIN825 > 《信息技術(shù)》

舉報(bào)/認(rèn)領(lǐng)