云計(jì)算大數(shù)據(jù)培訓(xùn)之Spark調(diào)優(yōu)（2）

更新時(shí)間:2017-09-01 來源:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院瀏覽量:

三，對(duì)公用的RDD進(jìn)行持久化
持久化場景：對(duì)于一個(gè)RDD被多次引用到，并且這個(gè)RDD計(jì)算過程復(fù)雜，計(jì)算時(shí)間特別耗時(shí)，那么就可以對(duì)這個(gè)RDD進(jìn)行持久化

如何進(jìn)行持久化：調(diào)用RDD.persist(), 或者RDD.cache()
【注意】cache方法的底層就是調(diào)用persist方法

如果對(duì)RDD做持久化，默認(rèn)持久化級(jí)別是StorageLevel.MEMEORY_ONLY ,也就是持久化到內(nèi)存中去，這種持久化級(jí)別效率是最快的，但是由于是純Java對(duì)象保存到內(nèi)存中，那么內(nèi)存可能保存的數(shù)據(jù)就會(huì)較少
如果當(dāng)我們集群資源有限時(shí)，那么我們可以采用MEMORY_ONLY_SER，也就是將Java對(duì)象進(jìn)行序列化之后再持久化到內(nèi)存中去，這種持久化的好處是能夠持久化更多的數(shù)據(jù)到內(nèi)存中，但是持久化時(shí)需要序列化，取出來又需要反序列化這一過程，性能相對(duì)于MEMORY_ONLY這種持久化要稍微弱點(diǎn)，但是還是比較高效的

如何選擇RDD持久化策略
Spark提供的多種持久化級(jí)別，主要是在CPU和內(nèi)存之間進(jìn)行取舍，下面是一些通用的持久化級(jí)別的選擇建議：
1、有限使用MEMORY_ONLY，如果可以緩存所有數(shù)據(jù)的話，那么就使用這種策略，因?yàn)榇簝?nèi)村速度最快，而且沒有序列化，不需要消耗CPU進(jìn)行反序列化操作
2、如果MEMORY_ONLY策略，無法存儲(chǔ)所有的數(shù)據(jù)的話，那么使用MEMORY_ONLY_SER，將數(shù)據(jù)進(jìn)行序列化存儲(chǔ)，純內(nèi)存操作還是非?？斓?，只是要消耗CPU進(jìn)行反序列化
3、如果需要進(jìn)行快速的失敗恢復(fù)，那么就選擇帶后綴為_2的策略，進(jìn)行數(shù)據(jù)的備份，這樣在失敗時(shí)，就不需要重新計(jì)算了
4、能不適用DISK相關(guān)的策略，就不要使用，有的時(shí)候，從磁盤讀取數(shù)據(jù)還不如重新計(jì)算一次

本文版權(quán)歸黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院所有，歡迎轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)注明作者出處。謝謝！
作者：黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā)：http://cloud.itheima.com/

全國中心

熱門課程

云計(jì)算大數(shù)據(jù)培訓(xùn)之Spark調(diào)優(yōu)（2）

最新資訊

相關(guān)閱讀

熱門課程推薦