乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      hadoop的安裝和使用

       知識存儲館 2012-08-31

         hadoop是目前比較流程的分布式計算平臺,雖然安裝和使用方法官方網(wǎng)站介紹的比較詳細,但是其中細節(jié)還是挺多的,稍不注意就要走很多彎路,希望通過本文的介紹,大家能夠在很短的時間內能將hadoop跑起來。 由于公司云梯用的是0.19.2版本的,所以下面就以這個版本為例,而沒有采用目前最新的0.21版本。

        hadoop官方網(wǎng)站地址:http://hadoop.

       

         可以用以下三種支持的模式中的一種啟動Hadoop集群:
         單機模式
         偽分布式模式
         完全分布式模式

          單機和偽分布模式只需要一臺機器就可以完成,下面我們先來學習這兩種模式。
           hadoop目前只有l(wèi)inux版本,所以你需要一臺linux系統(tǒng)的服務器,可以跟我一樣用虛擬機,而且需要先安裝好jdk。我的服務器版本是centos 5.6,自己將jdk安裝到了/usr/java/jdk1.6.0_25。下面我們來下載并配置hadoop運行環(huán)境。

        

        1.單機模式

          我這臺機器的ip地址是:192.168.218.128,為了方便,我將這臺機器的hostname改成了hd128,這樣以后需要配置的地方都是用hd128了,修改方法是編輯文件/proc/sys/kernel/hostname。然后修改下hosts文件,將 192.168.218.128 hd128也加入進來吧。為了方便,將所用的windows機器hosts也添加下這個配置,因為以后要用瀏覽器訪問hadoop的服務,查看hadoop的運行狀況。
           注意:下面配置中涉及到hd128的地方,你需要修改成你自己相應的配置。

      Shell代碼  收藏代碼
      1. cd /data  
      2. wget http://archive./dist/hadoop/core/hadoop-0.19.2/hadoop-0.19.2.tar.gz  
      3. tar xf hadoop-0.19.2.tar.gz  
      4. mv hadoop-0.19.2 hadoop  

          然后修改配置文件/data/hadoop/conf/hadoop-env.sh,將JAVA_HOME的值為jdk安裝目錄,如下:

          export JAVA_HOME=/usr/java/jdk1.6.0_25

       

          下面的實例將已解壓的conf 目錄拷貝作為輸入,查找并顯示匹配給定正則表達式的條目。輸出寫入到指定的output目錄。

      Shell代碼  收藏代碼
      1. mkdir input   
      2.   
      3. //向input目錄放置一些待分析的xml文件  
      4. cp conf/*.xml input   
      5.   
      6. //執(zhí)行hadoop-0.19.2-examples.jar這個jar文件,將input目錄所有的文件中匹配'dfs[a-z.]+'的條目,輸出到output目錄  
      7. bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'   

       

         下面看看程序運行結果,可以看到所有匹配'dfs[a-z.]+'的字符串及其匹配的次數(shù)。

      Shell代碼  收藏代碼
      1. cat output/*   
      2. [root@hd128 hadoop]# cat output/*  
      3. 3       dfs.  
      4. 3       dfs.name.dir  
      5. 1       dfs.https.address  
      6. 1       dfs.access.time.precision  
      7. 1       dfs.balance.bandwidth  
      8. 1       dfs.block.size  
      9. 1       dfs.blockreport.initial  
      10. 1       dfs.blockreport.interval  
      11. 1       dfs.client.block.write.retries  
      12. 1       dfs.data.dir  
      13. 1       dfs.datanode.address  
      14. 1       dfs.datanode.dns.interface  
      15. 1       dfs.datanode.dns.nameserver  
      16. 1       dfs.datanode.du.reserved  
      17. 1       dfs.datanode.handler.count  
      18. 1       dfs.datanode.http.address  
      19. 1       dfs.datanode.https.address  
      20. 1       dfs.datanode.ipc.address  
      21. 1       dfs.default.chunk.view.size  
      22. 1       dfs.df.interval  
      23. 1       dfs.heartbeat.interval  
      24. 1       dfs.hosts  
      25. 1       dfs.hosts.exclude  
      26. 1       dfs.http.address  
      27. 1       dfs.impl  
      28. 1       dfs.max.objects  
      29. 1       dfs.name.edits.dir  
      30. 1       dfs.namenode.decommission.interval  
      31. 1       dfs.namenode.decommission.interval.  
      32. 1       dfs.namenode.decommission.nodes.per.interval  
      33. 1       dfs.namenode.handler.count  
      34. 1       dfs.namenode.logging.level  
      35. 1       dfs.permissions  
      36. 1       dfs.permissions.supergroup  
      37. 1       dfs.replication  
      38. 1       dfs.replication.consider  
      39. 1       dfs.replication.interval  
      40. 1       dfs.replication.max  
      41. 1       dfs.replication.min  
      42. 1       dfs.replication.min.  
      43. 1       dfs.safemode.extension  
      44. 1       dfs.safemode.threshold.pct  
      45. 1       dfs.secondary.http.address  
      46. 1       dfs.support.append  
      47. 1       dfs.web.ugi  

       

      2.偽分布式模式


         Hadoop可以在單節(jié)點上以所謂的偽分布式模式運行,此時每一個Hadoop守護進程都作為一個獨立的Java進程運行。
         偽分布式模式需要免密碼ssh設置,確認能否不輸入口令就用ssh登錄localhost:

      Shell代碼  收藏代碼
      1. ssh localhost   

       

          如果不輸入口令就無法用ssh登陸localhost,執(zhí)行下面的命令(注意:只有擁有root權限的用戶才能執(zhí)行下面命令):

      Shell代碼  收藏代碼
      1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
      2. cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  

          然后修改conf/hadoop-site.xml,注意,官方教程有點錯誤:<value>localhost:9000</value>,這個地址必須帶上hdfs://,不然后面會報錯的。另外,dfs.name.dir配置的路徑/data/hadoopdata/NameData需要自己手動創(chuàng)建下,不然也會報錯的。

      Shell代碼  收藏代碼
      1.  <configuration>  
      2. <property>    
      3.   <name>fs.default.name</name>    
      4.   <value>hdfs://hd128:9090</value>    
      5. </property>    
      6.  <property>    
      7.   <name>mapred.job.tracker</name>    
      8.   <value>hdfs://hd128:9091</value>    
      9.  </property>    
      10.  <property>    
      11.    <name>dfs.replication</name>    
      12.    <value>1</value>    
      13.  </property>   
      14.  <property>    
      15.    <name>dfs.name.dir</name>    
      16.   <value>/data/hadoopdata/NameData</value>    
      17. </property>     
      18.  <property>    
      19.    <name>hadoop.tmp.dir</name>    
      20.    <value>/data/hadoopdata/temp</value>    
      21. </property>   
      22. </configuration>  

       

        配置完成后就可以測試下偽分布式模式運行的hadoop集群了。
        格式化一個新的分布式文件系統(tǒng):

      Shell代碼  收藏代碼
      1. bin/hadoop namenode -format   

          啟動Hadoop守護進程:

      Shell代碼  收藏代碼
      1. bin/start-all.sh  

          Hadoop守護進程的日志寫入到 ${HADOOP_LOG_DIR} 目錄 (默認是 ${HADOOP_HOME}/logs).如果啟動有錯誤,可以在這些日志文件看到更詳細的錯誤信息。

         瀏覽NameNode和JobTracker的網(wǎng)絡接口,它們的地址默認為:

         NameNode - http://hd128:50070/
         JobTracker - http://hd128:50030/


         下面我們來使用偽分布模式做點事情。

         首先將輸入文件拷貝到分布式文件系統(tǒng),下面命令將本地的conf目錄文件拷貝到hdfs的input目錄。

         bin/hadoop fs -put conf input 

        

         下面運行程序對input目錄的文件進行解析,找到所有符合'dfs[a-z.]+'的行。

        

      Shell代碼  收藏代碼
      1. [root@hd128 hadoop]# bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'  
      2. 11/06/16 15:23:23 INFO mapred.FileInputFormat: Total input paths to process : 10  
      3. 11/06/16 15:23:24 INFO mapred.JobClient: Running job: job_201106161520_0001  
      4. 11/06/16 15:23:25 INFO mapred.JobClient:  map 0% reduce 0%  
      5. 11/06/16 15:24:05 INFO mapred.JobClient:  map 9% reduce 0%  
      6. 11/06/16 15:25:30 INFO mapred.JobClient:  map 9% reduce 3%  
      7. 11/06/16 15:25:32 INFO mapred.JobClient:  map 27% reduce 3%  
      8. 11/06/16 15:26:37 INFO mapred.JobClient:  map 27% reduce 9%  

          可以看到控制顯示的map和reduce的進度,這時候通過瀏覽器查看NameNode和JobTracker的運行狀態(tài)分別如下圖所示:

         

        

       

          等map-reduce程序運行完畢,我們在hdfs文件系統(tǒng)上看看程序的運行結果:

       

      Shell代碼  收藏代碼
      1. bin/hadoop fs -cat output/part-00000  

          可以看到跟單機運行的結果是一樣的。

       

          完成全部操作后,停止守護進程:

      Shell代碼  收藏代碼
      1. bin/stop-all.sh   

         

        3.完全分布式模式

         為了在完全分布式模式下運行,我弄了三個centos虛擬機,ip分別是 192.168.218.128,192.168.218.129,192.168.218.130,hostname分別設置為 hd128,hd129,hd130, hosts文件將這些都配置進去了,這樣以后就可以直接通過hostname訪問到了。

          我準備將hd128這臺機器做為master(NameNode和JobTracker),hd129和hd130都做為slave機器(DataNode和TaskTracker)。

          由于master和所有的slave之間是需要使用ssh協(xié)議進行通訊的,所以每兩臺之間,以及每臺對自己都必須做到可以無密碼ssh訪問。上面已經(jīng)介紹了怎樣對自己無密碼ssh訪問,下面再說下怎樣做到兩臺機器之間無密碼訪問,我們以hd128和hd129之間為例:

         首先在hd128上生成一個公鑰,并拷貝到hd129上:

      Shell代碼  收藏代碼
      1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
      2. scp ~/.ssh/id_dsa.pub root@hd129:/tmp  

          然后在hd129上,將這個公鑰加入到權限控制文件中:

      Shell代碼  收藏代碼
      1. cat /tmp/id_dsa.pub >> ~/.ssh/authorized_keys  

         經(jīng)過上面的步驟,hd128對hd129的ssh訪問就不需要輸入密碼了,依照上面的方法,將hd128,hd129,hd130兩兩之間都弄好無密碼訪問的權限,這個工作一定要細致,很容易弄錯或弄漏了,做好后,最好都ssh試試。 


         經(jīng)過我的實驗,完全分布式模式至少需要在上面的基礎下還要進行如下配置。

        

         修改conf/hadoop-env.sh,添加下面配置:

      Shell代碼  收藏代碼
      1. export HADOOP_HOME=/data/hadoop  
      2. export HADOOP_CONF_DIR=$HADOOP_HOME/conf  
      3. export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves  
      4. export HADOOP_MASTER=hd128:/data/hadoop  

       

         修改conf/masters,一行一個master

      Shell代碼  收藏代碼
      1. hd128  

        

         修改conf/slaves,一行一個slave

      Shell代碼  收藏代碼
      1. hd129  
      2. hd130  

       

         就這樣master就配置好了,下面將hadoop整個目錄分發(fā)到所有slave機器上面。

      Shell代碼  收藏代碼
      1. cd /data  
      2. tar -czvf hadoop-ok.tar.gz hadoop  
      3. scp hadoop-ok.tar.gz root@hd129:/data  
      4. scp hadoop-ok.tar.gz root@hd130:/data  

       

          在slave機器上解壓tar文件

      Shell代碼  收藏代碼
      1. cd /data  
      2. tar xf hadoop-ok.tar.gz  

       

         配置基本上就完成了,下面就可以以完全分布式模式啟動hadoop集群了。對hadoop集群的操作都在master機器上進行就行了,slave進程的啟動和停止都是master通過ssh來控制的。
         (1)首先我們需要格式化hdfs文件系統(tǒng)

      Shell代碼  收藏代碼
      1. cd /data/hadoop  
      2. bin/hadoop namenode -format  

       

       

         (2)啟動hdfs文件系統(tǒng)

      Shell代碼  收藏代碼
      1. bin/start-dfs.sh  

          測試下hdfs文件系統(tǒng)是否好用了,我們將conf目錄下的所有文件放到hdfs的input目錄:
          bin/hadoop fs -put conf input

          下面查看下input目錄下下的文件:

      Shell代碼  收藏代碼
      1. [root@hd128 hadoop]# bin/hadoop fs -ls input  
      2. Found 10 items  
      3. -rw-r--r--   1 root supergroup       2065 2011-06-19 15:41 /user/root/input/capacity-scheduler.xml  
      4. -rw-r--r--   1 root supergroup        535 2011-06-19 15:41 /user/root/input/configuration.xsl  
      5. -rw-r--r--   1 root supergroup      50230 2011-06-19 15:41 /user/root/input/hadoop-default.xml  
      6. -rw-r--r--   1 root supergroup       2397 2011-06-19 15:41 /user/root/input/hadoop-env.sh  
      7. -rw-r--r--   1 root supergroup       1245 2011-06-19 15:41 /user/root/input/hadoop-metrics.properties  
      8. -rw-r--r--   1 root supergroup        711 2011-06-19 15:41 /user/root/input/hadoop-site.xml  
      9. -rw-r--r--   1 root supergroup       2815 2011-06-19 15:41 /user/root/input/log4j.properties  
      10. -rw-r--r--   1 root supergroup          6 2011-06-19 15:41 /user/root/input/masters  
      11. -rw-r--r--   1 root supergroup         12 2011-06-19 15:41 /user/root/input/slaves  
      12. -rw-r--r--   1 root supergroup        401 2011-06-19 15:41 /user/root/input/sslinfo.xml.example  

           如果順利看到這些文件,hdfs就啟動正常了。

       

          (3)啟動map-reduce服務

      Shell代碼  收藏代碼
      1. bin/start-mapred.sh  

       

         下面檢測下服務是否啟動正常。
         看看master機器上namenode和jobTracker服務是否存在:

      Shell代碼  收藏代碼
      1. [root@hd128 hadoop]# ps axu|grep java  
      2. root     28546  0.3 11.3 1180236 24564        Sl   15:26   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-secondarynamenode-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode  
      3. root     28628  6.3 16.8 1185080 36392 pts/0   Sl   15:28   0:01 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-jobtracker-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.JobTracker  
      4. root     28738  0.0  0.3   4028   704 pts/0    R+   15:28   0:00 grep java  

       

         看看slave機器DataNode和TaskTracker進程是否存在:

      Shell代碼  收藏代碼
      1. [root@hd129 logs]# ps axu|grep java  
      2. root      2026  0.1 11.5 1180316 24860        Sl   15:22   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-datanode-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.datanode.DataNode  
      3. root      2204  2.3 16.0 1185772 34604        Sl   15:28   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-tasktracker-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.TaskTracker  
      4. root      2266  0.0  0.3   4028   676 pts/0    R+   15:29   0:00 grep java  

         

         我們可以看到master和slave上各自有兩個java線程在服務,下面我們還是用之前的例子試試。
         bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'

        

        本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多