1 task的內(nèi)存緩沖調(diào)節(jié)參數(shù)2 reduce端聚合內(nèi)存占比
怎么判斷在什么時候?qū)@兩個參數(shù)進行調(diào)整呢? 通過監(jiān)控平臺查看每個executor的task的shuffle write和shuffle read的運行次數(shù),如果發(fā)現(xiàn)這個指標的運行次數(shù)比較多,那么就應該考慮這兩個參數(shù)的調(diào)整了;這個參數(shù)調(diào)整有一個前提,spark.shuffle.file.buffer參數(shù)每次擴大一倍的方式進行調(diào)整,spark.shuffle.memoryFraction參數(shù)每次增加0.1進行調(diào)整。 shuffle產(chǎn)生大量文件為了解決shuffle產(chǎn)生大量文件的問題,我們可以在map端輸出的位置,將文件進行合并操作,即使用 spark.shuffle.consolidateFiles 參數(shù)來合并文件,具體的使用方式為
作者:z小趙 |
|