大數(shù)據(jù)IMF傳奇行動(dòng)絕密課程第16課：RDD實(shí)戰(zhàn)

看風(fēng)景D人 2019-02-24

展開(kāi)全文

圖16-1 RDD的Transformation和Action執(zhí)行流程圖
RDD有幾種操作：Transformation（算子），Action（觸發(fā)作業(yè)，的結(jié)果foreach、reduce、saveasTextFile等），Controller（性能和容錯(cuò)方面persist、cache、checkpoint）

reduce要符合交換律和結(jié)合律

foreach不可以進(jìn)行模式匹配

collect把各個(gè)節(jié)點(diǎn)計(jì)算的結(jié)果匯總到Driver

package com.tom.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
  * 計(jì)算相同行出現(xiàn)的次數(shù)
  */
object TextLines {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf() //創(chuàng)建SparkConf對(duì)象
    conf.setAppName("Wow My First Spark App!") //設(shè)置應(yīng)用程序的名稱，在程序運(yùn)行的監(jiān)控界面可以看到
    conf.setMaster("local") //此時(shí)程序在本地運(yùn)行，不需要安裝Spark集群

    val sc = new SparkContext(conf) //創(chuàng)建SparkContext對(duì)象，通過(guò)傳入SparkConf實(shí)例，來(lái)定制Spark運(yùn)行的具體參數(shù)和配置信息
    val lines = sc.textFile("F:/helloSpark.txt") //通過(guò)HadoopRDD以及MapPartitionsRDD獲取文件中每一行的內(nèi)容本身
    val lineCount = lines.map(  (_, 1)) //每一行變成行的內(nèi)容與1構(gòu)成的Tuple
    val textLine = lineCount.reduceByKey(_ + _)
    textLine.collect.foreach( pair => println(pair._1 + ":" +pair._2)) //collect是把結(jié)果抓到Driver上,foreach的Array中只有一個(gè)元素，只不過(guò)元素
是一個(gè)Tuple。

  }
}

例子中Array中只有一個(gè)元素，只不過(guò)元素是一個(gè)Tuple。

shuffle觸發(fā)新的stage，action觸發(fā)job。saveAsTextJob內(nèi)部有Action，所以會(huì)觸發(fā)job
圖16-2 常用transformations和actions

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：看風(fēng)景D人 > 《Spark學(xué)習(xí)總結(jié)》

舉報(bào)/認(rèn)領(lǐng)