首頁技術(shù)文章正文

換個(gè)角度看大數(shù)據(jù)和數(shù)據(jù)倉庫,了解大數(shù)據(jù)

更新時(shí)間:2018-11-30 來源:黑馬程序員 瀏覽量:

0x00 前言
有關(guān)很多學(xué)大數(shù)據(jù)人常說的一句話就是學(xué)的越深越能體會(huì)到自己的無知,理解的越深刻越不敢張口說自己是搞這一行的。就是那種照著你所知道的你還是不知道的感覺。所以今天這篇文章深入淺出的了解一下大數(shù)據(jù)和數(shù)據(jù)倉庫。

把之前寫的數(shù)據(jù)倉庫系列博客,匯總和整理成了一本更系統(tǒng)的小書《Data Warehouse in Action》。

0x01 大數(shù)據(jù)和數(shù)據(jù)倉庫

16 年開始接觸數(shù)據(jù)倉庫,至今有一年半的時(shí)間,中間換了次工作,也算是在兩家公司實(shí)踐了數(shù)據(jù)倉庫。在此隨便寫一點(diǎn)關(guān)于大數(shù)據(jù)和數(shù)據(jù)倉庫的東西。

其實(shí),很多時(shí)候大數(shù)據(jù)和數(shù)據(jù)倉庫這些都是一些概念使然,個(gè)人不太認(rèn)為某一個(gè)概念比另一個(gè)概念厲害多少,大家是你中有我我中有你的關(guān)系。

就拿大數(shù)據(jù)來講,13年的時(shí)候我們會(huì)講,大數(shù)據(jù)包括了數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化等一系列的概念。再看數(shù)據(jù)倉庫的概念,隨便找本十多年前的經(jīng)典書籍就會(huì)發(fā)現(xiàn),數(shù)據(jù)倉庫包含了 ETL、元數(shù)據(jù)、數(shù)據(jù)血緣管理、調(diào)度系統(tǒng)、數(shù)據(jù)可視化等概念。

那么誰更大?誰更厲害?這個(gè)其實(shí)不是我們的重點(diǎn),這些東西最終還是要落在具體的工作和技術(shù)上。

比如說我是搞大數(shù)據(jù)開發(fā)中的數(shù)據(jù)收集、數(shù)據(jù)清洗工作,換一個(gè)名字我就可以說自己是搞 ETL 開發(fā)的;然后我再了解一些數(shù)據(jù)倉庫建模的內(nèi)容,將自己的數(shù)據(jù)清洗的工作套上數(shù)據(jù)倉庫中的模型設(shè)計(jì)和數(shù)據(jù)分層,我就可以說自己是搞數(shù)據(jù)倉庫的。

再比如說我之前是搞數(shù)據(jù)倉庫的元數(shù)據(jù)系統(tǒng)、血統(tǒng)分析、調(diào)度系統(tǒng)的,然后同樣的理論模型,使用場景從 Oracle、Mysql這些關(guān)系型數(shù)據(jù)庫轉(zhuǎn)移到 HDFS、Hive、Spark 中,我就變成了大數(shù)據(jù)開發(fā)中的系統(tǒng)開發(fā)了。

其實(shí)很多工作內(nèi)容和工作性質(zhì)都很相近,自己靈活一點(diǎn)就好。

0x02 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的內(nèi)容很多,這里主要對(duì)數(shù)據(jù)倉庫的體系做一個(gè)小的說明,算是這系列博客的總覽。

我們粗略地從數(shù)據(jù)倉庫中抽取幾個(gè)主題來聊:ETL、數(shù)據(jù)模型、元數(shù)據(jù)管理。

其中 ETL 的內(nèi)容和現(xiàn)在大數(shù)據(jù)的體系綁定最深。MapReduce、Spark 這些計(jì)算引擎都可以算是 ETL 的重要組成部分。

數(shù)據(jù)模型的話,我們把維度建模、數(shù)據(jù)分層、各種表結(jié)構(gòu)設(shè)計(jì)放在其中。這一塊算是數(shù)據(jù)倉庫中最重要的一塊。

元數(shù)據(jù),我們可以理解為數(shù)據(jù)的管理。

針對(duì)上面三個(gè)主題,本系列文章有下面內(nèi)容:

數(shù)據(jù)倉庫中的模型設(shè)計(jì)詳解唯獨(dú)建模拉鏈表是什么緩慢變化維度如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層別人家的元數(shù)據(jù)系統(tǒng)是怎么設(shè)計(jì)的數(shù)據(jù)質(zhì)量監(jiān)控聊一聊ETL的設(shè)計(jì)重要的代理鍵時(shí)間維表的實(shí)踐
0xFF 總結(jié)

從工作內(nèi)容上來講,我們會(huì)把數(shù)據(jù)分為數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘的話。 很多人覺得高大上的是數(shù)據(jù)挖掘,覺得工程最強(qiáng)的是數(shù)據(jù)開發(fā)。

我們可以換角度而言之,我們從數(shù)據(jù)的角度來講的,我們會(huì)把數(shù)據(jù)分為:數(shù)據(jù)計(jì)算、數(shù)據(jù)價(jià)值和數(shù)據(jù)管理。我們很多是以數(shù)據(jù)價(jià)值為導(dǎo)向地來做數(shù)據(jù)計(jì)算,但是常常就會(huì)忽略數(shù)據(jù)管理,而數(shù)據(jù)倉庫的理念剛好是數(shù)據(jù)管理。因此可以在適當(dāng)?shù)臉I(yè)務(wù)階段來重視數(shù)據(jù)管理。

作者:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.cn/

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!