Spark RDD的兩種依賴(lài)關(guān)系？

更新時(shí)間:2021-01-05 來(lái)源:黑馬程序員瀏覽量:

1577370495235_學(xué)IT就到黑馬程序員.gif

在Spark中，不同的RDD之間具有依賴(lài)的關(guān)系。RDD與它所依賴(lài)的RDD的依賴(lài)關(guān)系有兩種類(lèi)型，分別是窄依賴(lài)（narrow dependency）和寬依賴(lài)（wide dependency）。

窄依賴(lài)是指父RDD的每一個(gè)分區(qū)最多被一個(gè)子RDD的分區(qū)使用，即OneToOneDependencies。窄依賴(lài)的表現(xiàn)一般分為兩類(lèi)，第一類(lèi)表現(xiàn)為一個(gè)父RDD的分區(qū)對(duì)應(yīng)于一個(gè)子RDD的分區(qū)；第二類(lèi)表現(xiàn)為多個(gè)父RDD的分區(qū)對(duì)應(yīng)于一個(gè)子RDD的分區(qū)。也就是說(shuō)，一個(gè)父RDD的一個(gè)分區(qū)不可能對(duì)應(yīng)一個(gè)子RDD的多個(gè)分區(qū)。為了便于理解，我們通常把窄依賴(lài)形象的比喻為獨(dú)生子女。當(dāng)RDD執(zhí)行map、filter及union和join操作時(shí)，都會(huì)產(chǎn)生窄依賴(lài)，如圖1所示。

圖1 Narrow Dependencies窄依賴(lài)

從圖1可以看出，RDD做map、filter和union算子操作時(shí)，是屬于窄依賴(lài)的第一類(lèi)表現(xiàn)；而RDD做join算子操作（對(duì)輸入進(jìn)行協(xié)同劃分）時(shí)，是屬于窄依賴(lài)表現(xiàn)的第二類(lèi)。這里的輸入?yún)f(xié)同劃分是指多個(gè)父RDD的某一個(gè)分區(qū)的所有Key，被劃分到子RDD的同一分區(qū)，而不是指同一個(gè)父RDD的某一個(gè)分區(qū)，被劃分到子RDD的兩個(gè)分區(qū)中。當(dāng)子RDD做算子操作，因?yàn)槟硞€(gè)分區(qū)操作失敗導(dǎo)致數(shù)據(jù)丟失時(shí)，只需要重新對(duì)父RDD中對(duì)應(yīng)的分區(qū)（與子RDD相對(duì)應(yīng)的分區(qū)）做算子操作即可恢復(fù)數(shù)據(jù)。

寬依賴(lài)是指子RDD的每一個(gè)分區(qū)都會(huì)使用所有父RDD的所有分區(qū)或多個(gè)分區(qū)，即OneToManyDependecies。為了便于理解，我們通常把寬依賴(lài)形象的比喻為超生。當(dāng)RDD做groupByKey和join操作時(shí)，會(huì)產(chǎn)生寬依賴(lài)，如圖2所示。

圖2 Wide Dependencies寬依賴(lài)

從圖2可以看出，父RDD做groupByKey和join（輸入未協(xié)同劃分）算子操作時(shí)，子RDD的每一個(gè)分區(qū)都會(huì)依賴(lài)于所有父RDD的所有分區(qū)。當(dāng)子RDD做算子操作，因?yàn)槟硞€(gè)分區(qū)操作失敗導(dǎo)致數(shù)據(jù)丟失時(shí)，則需要重新對(duì)父RDD中的所有分區(qū)進(jìn)行算子操作才能恢復(fù)數(shù)據(jù)。

需要注意的是，join算子操作既可以屬于窄依賴(lài)，也可以屬于寬依賴(lài)。當(dāng)join算子操作后，分區(qū)數(shù)量沒(méi)有變化則為窄依賴(lài)（如join with inputs co-partitioned，輸入?yún)f(xié)同劃分）；當(dāng)join算子操作后，分區(qū)數(shù)量發(fā)生變化則為寬依賴(lài)（如join with inputs not co-partitioned，輸入非協(xié)同劃分）。

RDD為什么要進(jìn)行數(shù)據(jù)持久化？它的操作方法有哪些？

Spark RDD是什么？RDD特征介紹

黑馬程序員大數(shù)據(jù)培訓(xùn)課程