乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Spark SQL 之 Performance Tuning & Distributed SQL Engine

       昵稱10504424 2015-12-15

      Spark SQL 之 Performance Tuning & Distributed SQL Engine


      轉(zhuǎn)載請(qǐng)注明出處:http://www.cnblogs.com/BYRans/

      緩存數(shù)據(jù)至內(nèi)存(Caching Data In Memory)

      Spark SQL可以通過調(diào)用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),將表用一種柱狀格式( an in-memory columnar format)緩存至內(nèi)存中。然后Spark SQL在執(zhí)行查詢?nèi)蝿?wù)時(shí),只需掃描必需的列,從而以減少掃描數(shù)據(jù)量、提高性能。通過緩存數(shù)據(jù),Spark SQL還可以自動(dòng)調(diào)節(jié)壓縮,從而達(dá)到最小化內(nèi)存使用率和降低GC壓力的目的。調(diào)用sqlContext.uncacheTable("tableName")可將緩存的數(shù)據(jù)移出內(nèi)存。

      可通過兩種配置方式開啟緩存數(shù)據(jù)功能:

      • 使用SQLContext的setConf方法
      • 執(zhí)行SQL命令 SET key=value

      Cache-In-Memory

      調(diào)優(yōu)參數(shù)(Other Configuration Options)

      可以通過配置下表中的參數(shù)調(diào)節(jié)Spark SQL的性能。在后續(xù)的Spark版本中將逐漸增強(qiáng)自動(dòng)調(diào)優(yōu)功能,下表中的參數(shù)在后續(xù)的版本中或許將不再需要配置。

      optionsTunningPfms

      分布式SQL引擎

      使用Spark SQL的JDBC/ODBC或者CLI,可以將Spark SQL作為一個(gè)分布式查詢引擎。終端用戶或應(yīng)用不需要編寫額外的代碼,可以直接使用Spark SQL執(zhí)行SQL查詢。

      運(yùn)行Thrift JDBC/ODBC服務(wù)

      這里運(yùn)行的Thrift JDBC/ODBC服務(wù)與Hive 1.2.1中的HiveServer2一致。可以在Spark目錄下執(zhí)行如下命令來啟動(dòng)JDBC/ODBC服務(wù):

      ./sbin/start-thriftserver.sh

      這個(gè)命令接收所有 bin/spark-submit 命令行參數(shù),添加一個(gè) --hiveconf 參數(shù)來指定Hive的屬性。詳細(xì)的參數(shù)說明請(qǐng)執(zhí)行命令 ./sbin/start-thriftserver.sh --help 。
      服務(wù)默認(rèn)監(jiān)聽端口為localhost:10000。有兩種方式修改默認(rèn)監(jiān)聽端口:

      • 修改環(huán)境變量:
      export HIVE_SERVER2_THRIFT_PORT=<listening-port>
      export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>
      ./sbin/start-thriftserver.sh   --master <master-uri>   ...
      • 修改系統(tǒng)屬性
      ./sbin/start-thriftserver.sh   --hiveconf hive.server2.thrift.port=<listening-port>   --hiveconf hive.server2.thrift.bind.host=<listening-host>   --master <master-uri>
        ...

      使用 beeline 來測(cè)試Thrift JDBC/ODBC服務(wù):

      ./bin/beeline

      連接到Thrift JDBC/ODBC服務(wù)

      beeline> !connect jdbc:hive2://localhost:10000

      在非安全模式下,只需要輸入機(jī)器上的一個(gè)用戶名即可,無需密碼。在安全模式下,beeline會(huì)要求輸入用戶名和密碼。安全模式下的詳細(xì)要求,請(qǐng)閱讀beeline documentation的說明。

      配置Hive需要替換 conf/ 目錄下的 hive-site.xml

      Thrift JDBC服務(wù)也支持通過HTTP傳輸發(fā)送thrift RPC messages。開啟HTTP模式需要將下面的配參數(shù)配置到系統(tǒng)屬性或 conf/: 下的 hive-site.xml

      hive.server2.transport.mode - Set this to value: http
      hive.server2.thrift.http.port - HTTP port number fo listen on; default is 10001
      hive.server2.http.endpoint - HTTP endpoint; default is cliservice

      測(cè)試http模式,可以使用beeline鏈接JDBC/ODBC服務(wù):

      beeline> !connect jdbc:hive2://<host>:<port>/<database>?hive.server2.transport.mode=http;hive.server2.thrift.http.path=<http_endpoint>

      運(yùn)行Spark SQL CLI

      Spark SQL CLI可以很方便的在本地運(yùn)行Hive元數(shù)據(jù)服務(wù)以及從命令行執(zhí)行查詢?nèi)蝿?wù)。需要注意的是,Spark SQL CLI不能與Thrift JDBC服務(wù)交互。
      在Spark目錄下執(zhí)行如下命令啟動(dòng)Spark SQL CLI:

      ./bin/spark-sql

      配置Hive需要替換 conf/ 下的 hive-site.xml 。執(zhí)行 ./bin/spark-sql --help 可查看詳細(xì)的參數(shù)說明 。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多