首頁(yè)技術(shù)文章正文

大數(shù)據(jù)離線階段Day9之HDFS元數(shù)據(jù)管理機(jī)制

更新時(shí)間:2018-10-24 來(lái)源:黑馬程序員 瀏覽量:

  1. 元數(shù)據(jù)管理概述

  HDFS元數(shù)據(jù),按類(lèi)型分,主要包括以下幾個(gè)部分:

  1、文件、目錄自身的屬性信息,例如文件名,目錄名,修改信息等。

  2、文件記錄的信息的存儲(chǔ)相關(guān)的信息,例如存儲(chǔ)塊信息,分塊情況,副本個(gè)數(shù)等。

  3、記錄HDFS的Datanode的信息,用于DataNode的管理。

  按形式分為內(nèi)存元數(shù)據(jù)和元數(shù)據(jù)文件兩種,分別存在內(nèi)存和磁盤(pán)上。

  HDFS磁盤(pán)上元數(shù)據(jù)文件分為兩類(lèi),用于持久化存儲(chǔ):

  fsimage 鏡像文件:是元數(shù)據(jù)的一個(gè)持久化的檢查點(diǎn),包含Hadoop文件系統(tǒng)中的所有目錄和文件元數(shù)據(jù)信息,但不包含文件塊位置的信息。文件塊位置信息只存儲(chǔ)在內(nèi)存中,是在 datanode加入集群的時(shí)候,namenode詢問(wèn)datanode得到的,并且間斷的更新。

  Edits 編輯日志:存放的是Hadoop文件系統(tǒng)的所有更改操作(文件創(chuàng)建,刪除或修改)的日志,文件系統(tǒng)客戶端執(zhí)行的更改操作首先會(huì)被記錄到edits文件中。

  fsimage和edits文件都是經(jīng)過(guò)序列化的,在NameNode啟動(dòng)的時(shí)候,它會(huì)將fsimage文件中的內(nèi)容加載到內(nèi)存中,之后再執(zhí)行edits文件中的各項(xiàng)操作,使得內(nèi)存中的元數(shù)據(jù)和實(shí)際的同步,存在內(nèi)存中的元數(shù)據(jù)支持客戶端的讀操作,也是最完整的元數(shù)據(jù)。

  當(dāng)客戶端對(duì)HDFS中的文件進(jìn)行新增或者修改操作,操作記錄首先被記入edits日志文件中,當(dāng)客戶端操作成功后,相應(yīng)的元數(shù)據(jù)會(huì)更新到內(nèi)存元數(shù)據(jù)中。因?yàn)閒simage文件一般都很大(GB級(jí)別的很常見(jiàn)),如果所有的更新操作都往fsimage文件中添加,這樣會(huì)導(dǎo)致系統(tǒng)運(yùn)行的十分緩慢。

  HDFS這種設(shè)計(jì)實(shí)現(xiàn)著手于:一是內(nèi)存中數(shù)據(jù)更新、查詢快,極大縮短了操作響應(yīng)時(shí)間;二是內(nèi)存中元數(shù)據(jù)丟失風(fēng)險(xiǎn)頗高(斷電等),因此輔佐元數(shù)據(jù)鏡像文件(fsimage)+編輯日志文件(edits)的備份機(jī)制進(jìn)行確保元數(shù)據(jù)的安全。

  NameNode維護(hù)整個(gè)文件系統(tǒng)元數(shù)據(jù)。因此,元數(shù)據(jù)的準(zhǔn)確管理,影響著HDFS提供文件存儲(chǔ)服務(wù)的能力。

  2. 元數(shù)據(jù)目錄相關(guān)文件

  在Hadoop的HDFS首次部署好配置文件之后,并不能馬上啟動(dòng)使用,而是先要對(duì)文件系統(tǒng)進(jìn)行格式化。需要在NameNode(NN)節(jié)點(diǎn)上進(jìn)行如下的操作:

  $HADOOP_HOME/bin/hdfs namenode –format

  在這里要注意兩個(gè)概念,一個(gè)是文件系統(tǒng),此時(shí)的文件系統(tǒng)在物理上還不存在;二就是此處的格式化并不是指?jìng)鹘y(tǒng)意義上的本地磁盤(pán)格式化,而是一些清除與準(zhǔn)備工作。

  格式化完成之后,將會(huì)在$dfs.namenode.name.dir/current目錄下創(chuàng)建如下的文件結(jié)構(gòu),這個(gè)目錄也正是namenode元數(shù)據(jù)相關(guān)的文件目錄:

  

  其中的dfs.namenode.name.dir是在hdfs-site.xml文件中配置的,默認(rèn)值如下:

  

  dfs.namenode.name.dir屬性可以配置多個(gè)目錄,各個(gè)目錄存儲(chǔ)的文件結(jié)構(gòu)和內(nèi)容都完全一樣,相當(dāng)于備份,這樣做的好處是當(dāng)其中一個(gè)目錄損壞了,也不會(huì)影響到Hadoop的元數(shù)據(jù),特別是當(dāng)其中一個(gè)目錄是NFS(網(wǎng)絡(luò)文件系統(tǒng)Network File System,NFS)之上,即使你這臺(tái)機(jī)器損壞了,元數(shù)據(jù)也得到保存。

  下面對(duì)$dfs.namenode.name.dir/current/目錄下的文件進(jìn)行解釋。

  VERSION

  namespaceID=934548976

  clusterID=CID-cdff7d73-93cd-4783-9399-0a22e6dce196

  cTime=0

  storageType=NAME_NODE

  blockpoolID=BP-893790215-192.168.24.72-1383809616115

  layoutVersion=-47

  namespaceID/clusterID/blockpoolID 這些都是HDFS集群的唯一標(biāo)識(shí)符。標(biāo)識(shí)符被用來(lái)防止DataNodes意外注冊(cè)到另一個(gè)集群中的namenode上。這些標(biāo)識(shí)在聯(lián)邦(federation)部署中特別重要。聯(lián)邦模式下,會(huì)有多個(gè)NameNode獨(dú)立工作。每個(gè)的NameNode提供唯一的命名空間(namespaceID),并管理一組唯一的文件塊池(blockpoolID)。clusterID將整個(gè)集群結(jié)合在一起作為單個(gè)邏輯單元,在集群中的所有節(jié)點(diǎn)上都是一樣的。

  storageType說(shuō)明這個(gè)文件存儲(chǔ)的是什么進(jìn)程的數(shù)據(jù)結(jié)構(gòu)信息(如果是DataNode,storageType=DATA_NODE);

  cTime NameNode存儲(chǔ)系統(tǒng)創(chuàng)建時(shí)間,首次格式化文件系統(tǒng)這個(gè)屬性是0,當(dāng)文件系統(tǒng)升級(jí)之后,該值會(huì)更新到升級(jí)之后的時(shí)間戳;

  layoutVersion表示HDFS永久性數(shù)據(jù)結(jié)構(gòu)的版本信息,是一個(gè)負(fù)整數(shù)。

  補(bǔ)充說(shuō)明:

  格式化集群的時(shí)候,可以指定集群的cluster_id,但是不能與環(huán)境中其他集群有沖突。如果沒(méi)有提供cluster_id,則會(huì)自動(dòng)生成一個(gè)唯一的ClusterID。

  $HADOOP_HOME/bin/hdfs namenode -format -clusterId

  seen_txid

  $dfs.namenode.name.dir/current/seen_txid非常重要,是存放transactionId的文件,format之后是0,它代表的是namenode里面的edits_*文件的尾數(shù),namenode重啟的時(shí)候,會(huì)按照seen_txid的數(shù)字,循序從頭跑edits_0000001~到seen_txid的數(shù)字。所以當(dāng)你的hdfs發(fā)生異常重啟的時(shí)候,一定要比對(duì)seen_txid內(nèi)的數(shù)字是不是你edits最后的尾數(shù)。

  Fsimage & edits

  $dfs.namenode.name.dir/current目錄下在format的同時(shí)也會(huì)生成fsimage和edits文件,及其對(duì)應(yīng)的md5校驗(yàn)文件。

  3. secondary namenode

  

  NameNode職責(zé)是管理元數(shù)據(jù)信息,DataNode的職責(zé)是負(fù)責(zé)數(shù)據(jù)具體存儲(chǔ),那么SecondaryNameNode的作用是什么?對(duì)很多初學(xué)者來(lái)說(shuō)是非常迷惑的。它為什么會(huì)出現(xiàn)在HDFS中。從它的名字上看,它給人的感覺(jué)就像是NameNode的備份。但它實(shí)際上卻不是。

  大家猜想一下,當(dāng)HDFS集群運(yùn)行一段事件后,就會(huì)出現(xiàn)下面一些問(wèn)題:

  l edit logs文件會(huì)變的很大,怎么去管理這個(gè)文件是一個(gè)挑戰(zhàn)。

  l NameNode重啟會(huì)花費(fèi)很長(zhǎng)時(shí)間,因?yàn)橛泻芏喔膭?dòng)要合并到fsimage文件上。

  l 如果NameNode掛掉了,那就丟失了一些改動(dòng)。因?yàn)榇藭r(shí)的fsimage文件非常舊。

  因此為了克服這個(gè)問(wèn)題,我們需要一個(gè)易于管理的機(jī)制來(lái)幫助我們減小edit logs文件的大小和得到一個(gè)最新的fsimage文件,這樣也會(huì)減小在NameNode上的壓力。這跟Windows的恢復(fù)點(diǎn)是非常像的,Windows的恢復(fù)點(diǎn)機(jī)制允許我們對(duì)OS進(jìn)行快照,這樣當(dāng)系統(tǒng)發(fā)生問(wèn)題時(shí),我們能夠回滾到最新的一次恢復(fù)點(diǎn)上。

  SecondaryNameNode就是來(lái)幫助解決上述問(wèn)題的,它的職責(zé)是合并NameNode的edit logs到fsimage文件中。

  4. Checkpoint

  每達(dá)到觸發(fā)條件,會(huì)由secondary namenode將namenode上積累的所有edits和一個(gè)最新的fsimage下載到本地,并加載到內(nèi)存進(jìn)行merge(這個(gè)過(guò)程稱為checkpoint),如下圖所示:

  

  4.1. Checkpoint詳細(xì)步驟

  l NameNode管理著元數(shù)據(jù)信息,其中有兩類(lèi)持久化元數(shù)據(jù)文件:edits操作日志文件和fsimage元數(shù)據(jù)鏡像文件。新的操作日志不會(huì)立即與fsimage進(jìn)行合并,也不會(huì)刷到NameNode的內(nèi)存中,而是會(huì)先寫(xiě)到edits中(因?yàn)楹喜⑿枰拇罅康馁Y源),操作成功之后更新至內(nèi)存。

  l 有dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 兩個(gè)配置,只要達(dá)到這兩個(gè)條件任何一個(gè),secondarynamenode就會(huì)執(zhí)行checkpoint的操作。

  l 當(dāng)觸發(fā)checkpoint操作時(shí),NameNode會(huì)生成一個(gè)新的edits即上圖中的edits.new文件,同時(shí)SecondaryNameNode會(huì)將edits文件和fsimage復(fù)制到本地(HTTP GET方式)。

  l secondarynamenode將下載下來(lái)的fsimage載入到內(nèi)存,然后一條一條地執(zhí)行edits文件中的各項(xiàng)更新操作,使得內(nèi)存中的fsimage保存最新,這個(gè)過(guò)程就是edits和fsimage文件合并,生成一個(gè)新的fsimage文件即上圖中的Fsimage.ckpt文件。

  l secondarynamenode將新生成的Fsimage.ckpt文件復(fù)制到NameNode節(jié)點(diǎn)。

  l 在NameNode節(jié)點(diǎn)的edits.new文件和Fsimage.ckpt文件會(huì)替換掉原來(lái)的edits文件和fsimage文件,至此剛好是一個(gè)輪回,即在NameNode中又是edits和fsimage文件。

  l 等待下一次checkpoint觸發(fā)SecondaryNameNode進(jìn)行工作,一直這樣循環(huán)操作。

  4.2. Checkpoint觸發(fā)條件

  Checkpoint操作受兩個(gè)參數(shù)控制,可以通過(guò)core-site.xml進(jìn)行配置:

  

  dfs.namenode.checkpoint.period

  3600

  

  兩次連續(xù)的checkpoint之間的時(shí)間間隔。默認(rèn)1小時(shí)

  

  

  

  dfs.namenode.checkpoint.txns

  1000000

  

  最大的沒(méi)有執(zhí)行checkpoint事務(wù)的數(shù)量,滿足將強(qiáng)制執(zhí)行緊急checkpoint,即使尚未達(dá)到檢查點(diǎn)周期。默認(rèn)設(shè)置為100萬(wàn)。

  

  

  從上面的描述我們可以看出,SecondaryNamenode根本就不是Namenode的一個(gè)熱備,其只是將fsimage和edits合并。其擁有的fsimage不是最新的,因?yàn)樵谒麖腘ameNode下載fsimage和edits文件時(shí)候,新的更新操作已經(jīng)寫(xiě)到edit.new文件中去了。而這些更新在SecondaryNamenode是沒(méi)有同步到的!當(dāng)然,如果NameNode中的fsimage真的出問(wèn)題了,還是可以用SecondaryNamenode中的fsimage替換一下NameNode上的fsimage,雖然已經(jīng)不是最新的fsimage,但是我們可以將損失減小到最少!



作者 :黑馬程序員大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.com

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!