乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      理解Spark運行模式(三)(STANDALONE和Local)

       路人甲Java 2022-04-29 發(fā)布于北京

      前兩篇介紹了Spark的yarn client和yarn cluster模式,本篇繼續(xù)介紹Spark的STANDALONE模式和Local模式。

      下面具體還是用計算PI的程序來說明,examples中該程序有三個版本,分別采用Scala、Python和Java語言編寫。本次用Java程序JavaSparkPi做說明。

       1 package org.apache.spark.examples;
       2 
       3 import org.apache.spark.api.java.JavaRDD;
       4 import org.apache.spark.api.java.JavaSparkContext;
       5 import org.apache.spark.sql.SparkSession;
       6 
       7 import java.util.ArrayList;
       8 import java.util.List;
       9 
      10 /**
      11  * Computes an approximation to pi
      12  * Usage: JavaSparkPi [partitions]
      13  */
      14 public final class JavaSparkPi {
      15 
      16   public static void main(String[] args) throws Exception {
      17     SparkSession spark = SparkSession
      18       .builder()
      19       .appName("JavaSparkPi")
      20       .getOrCreate();
      21 
      22     JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
      23 
      24     int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
      25     int n = 100000 * slices;
      26     List<Integer> l = new ArrayList<>(n);
      27     for (int i = 0; i < n; i++) {
      28       l.add(i);
      29     }
      30 
      31     JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
      32 
      33     int count = dataSet.map(integer -> {
      34       double x = Math.random() * 2 - 1;
      35       double y = Math.random() * 2 - 1;
      36       return (x * x + y * y <= 1) ? 1 : 0;
      37     }).reduce((integer, integer2) -> integer + integer2);
      38 
      39     System.out.println("Pi is roughly " + 4.0 * count / n);
      40 
      41     spark.stop();
      42   }
      43 }

      程序邏輯與之前的Scala和Python程序一樣,就不再多做說明了。對比Scala、Python和Java程序,同樣計算PI的邏輯,程序分別是26行、30行和43行,可以看出編寫Spark程序,使用Scala或者Python比Java來得更加簡潔,因此推薦使用Scala或者Python編寫Spark程序。

      下面來以STANDALONE方式來執(zhí)行這個程序,執(zhí)行前需要啟動Spark自帶的集群服務(wù)(在master上執(zhí)行$SPARK_HOME/sbin/start-all.sh),最好同時啟動spark的history server,這樣即使在程序運行完以后也可以從Web UI中查看到程序運行情況。啟動Spark的集群服務(wù)后,會在master主機和slave主機上分別出現(xiàn)Master守護進程和Worker守護進程。而在Yarn模式下,就不需要啟動Spark的集群服務(wù),只需要在客戶端部署Spark即可,而STANDALONE模式需要在集群每臺機器都部署Spark。

      輸入以下命令:

      [root@BruceCentOS4 jars]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://BruceCentOS.Hadoop:7077 $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

      以下是程序運行輸出信息部分截圖,

      開始部分:

        中間部分:

        結(jié)束部分:

       

      從上面的程序輸出信息科看出,Spark Driver是運行在客戶端BruceCentOS4上的SparkSubmit進程當(dāng)中的,集群是Spark自帶的集群。

      SparkUI上的Executor信息:

        BruceCentOS4上的客戶端進程(包含Spark Driver):

        BruceCentOS3上的Executor進程:

       BruceCentOS上的Executor進程:

        BruceCentOS2上的Executor進程:

       

      下面具體描述下Spark程序在standalone模式下運行的具體流程。

      這里是一個流程圖:

       

       

       

       

      1. SparkContext連接到Master,向Master注冊并申請資源(CPU Core 和Memory)。
      2. Master根據(jù)SparkContext的資源申請要求和Worker心跳周期內(nèi)報告的信息決定在哪個Worker上分配資源,然后在該Worker上獲取資源,然后啟動CoarseGrainedExecutorBackend。
      3. CoarseGrainedExecutorBackend向SparkContext注冊。
      4. SparkContext將Applicaiton代碼發(fā)送給CoarseGrainedExecutorBackend;并且SparkContext解析Applicaiton代碼,構(gòu)建DAG圖,并提交給DAG Scheduler分解成Stage(當(dāng)碰到Action操作時,就會催生Job;每個Job中含有1個或多個Stage,Stage一般在獲取外部數(shù)據(jù)和shuffle之前產(chǎn)生),然后以Stage(或者稱為TaskSet)提交給Task Scheduler,Task Scheduler負(fù)責(zé)將Task分配到相應(yīng)的Worker,最后提交給CoarseGrainedExecutorBackend執(zhí)行。
      5. CoarseGrainedExecutorBackend會建立Executor線程池,開始執(zhí)行Task,并向SparkContext報告,直至Task完成。
      6. 所有Task完成后,SparkContext向Master注銷,釋放資源。

      最后來看Local運行模式,該模式就是在單機本地環(huán)境執(zhí)行,主要用于程序測試。程序的所有部分,包括Client、Driver和Executor全部運行在客戶端的SparkSubmit進程當(dāng)中。Local模式有三種啟動方式。

      #啟動1個Executor運行任務(wù)(1個線程)

      [root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

      #啟動N個Executor運行任務(wù)(N個線程),這里N=2

      [root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[2] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

      #啟動*個Executor運行任務(wù)(*個線程),這里*指代本地機器上的CPU核的個數(shù)。

      [root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[*] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

       

      以上就是個人對Spark運行模式(STANDALONE和Local)的一點理解,其中參考了“求知若渴 虛心若愚”博主的“Spark(一): 基本架構(gòu)及原理”的部分內(nèi)容(其中基于Spark2.3.0對某些細(xì)節(jié)進行了修正),在此表示感謝。

       

       

       

       

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多