大數據培訓：基于Hadoop的數據分析平臺搭建方法

來源：奇酷教育發表于：2019-01-28 09:38:49

　　從概念上來講，我們可以把數據分析平臺分為接入層(Landing)、整合層(Integration)、表現層(Persentation)、語義層(Semantic)、終端用戶

　　從概念上來講，我們可以把數據分析平臺分為接入層(Landing)、整合層(Integration)、表現層(Persentation)、語義層(Semantic)、終端用戶應用(End-user applications)、元數據(Metadata)。基于Hadoop和數據庫的分析平臺基本概念和邏輯架構是通用的，只是技術選型的不同：

　　1. 接入層(Landing)：以和源系統相同的結構暫存原始數據，有時被稱為“貼源層”或ODS;

　　2. 整合層(Integration)：持久存儲整合后的企業數據，針對企業信息實體和業務事件建模，代表組織的“唯真相來源”，有時被稱為“數據倉庫”;

　　3. 表現層(Presentation)：為滿足較終用戶的需求提供可消費的數據，針對商業智能和查詢性能建模，有時被稱為“數據集市”;

　　4. 語義層(Semantic)：提供數據的呈現形式和訪問控制，例如某種報表工具;

　　5. 終端用戶應用(End-user applications)：使用語義層的工具，將表現層數據較終呈現給用戶，包括儀表板、報表、圖表等多種形式;

　　6. 元數據(Metadata)：記錄各層數據項的定義(Definitions)、血緣(Genealogy)、處理過程(Processing)。

　　來自不同數據源的“生”數據(接入層)，和經過中間處理之后得到的整合層、表現層的數據模型，都會存儲在數據湖里備用。

　　數據湖的實現通常建立在Hadoop生態上，可能直接存儲在HDFS上，也可能存儲在HBase或Hive上，也有用關系型數據庫作為數據湖存儲的可能性存在。

　　一，數據分析平臺的數據處理流程：

　　數據分析基本都是單獨的系統，會將其他數據源的數據(即外部數據)同步到數據平臺的存儲體系來(即數據湖)，般數據先進入到接入層，這層只簡單的將外部數據同步到數據分析平臺，沒有做其他處理，這樣同步出錯后重試即可，有定時同步和流式同步兩種：

　　1.定時同步即我們設定在指定時間觸發同步動作;

　　2. 流式同步即外部數據通過Kafka或MQ發送數據修改通知及內容。

　　3. 數據分析平臺執行對應操作修改數據。

　　接入層數據需要經過ETL處理步驟才會進入數據倉庫，數據分析人員都是基于數據倉庫的數據來做分析計算，數據倉庫可以看作數據分析的唯來源，ETL會將接入層的數據做數據清洗、轉換，再加載到數據倉庫，過濾或處理不合法、不完整的數據，并使用統的維度來表示數據狀態。有的系統會在這層就將數據倉庫構建成數據立方體、將維度信息構建成雪花或星型模式;也有的系統這層只是統了所有數據信息，沒有做數據立方體，留在數據集市做。

　　數據集市是基于數據倉庫數據對業務關心的信息做計算提取后得到的進步信息，是業務人員直接面對的信息，是數據倉庫的進步計算和深入分析的結果，般都會構建數據立方體。系統開發人員般會開發頁面來向用戶展示數據集市的數據。

　　二、基于Hadoop構建數據分析平臺

　　基于Hadoop構建的數據分析平臺建構理論與數據處理流程與前面講的相同。傳統分析平臺使用數據庫套件構建，這里我們使用Hadoop平臺的組件。

　　上面這張圖是我們使用到的Hadoop平臺的組件，數據從下到動，數據處理流程和上面說的致。

　　任務調度負責將數據處理的流程串聯起來，這里我選擇使用的是Oozie，也有很多其它選擇。

　　1、數據存儲：基于Hadoop的數據湖主要用到了HDFS、Hive和HBase，HDFS是Hadoop平臺的文件存儲系統，我們直接操縱文件是比較復雜的，所以可以使用分布式數據庫Hive或HBase用來做數據湖，存儲接入層、數據倉庫、數據集市的數據。

　　Hive和HBase各有優勢：HBase是個NoSQL數據庫，隨機查詢性能和可擴展性都比較好;而Hive是個基于HDFS的數據庫，數據文件都以HDFS文件(夾)形式存放，存儲了表的存儲位置(即在HDFS中的位置)、存儲格式等元數據，Hive支持SQL查詢，可將查詢解析成Map/Reduce執行，這對傳統的數據分析平臺開發人員更友好。

　　Hive數據格式可選擇文本格式或二進制格式，文本格式有csv、json或自定義分隔，二進制格式有orc或parquet，他們都基于行列式存儲，在查詢時性能更好。同時可選擇分區(partition)，這樣在查詢時可通過條件過濾進步減少數據量。接入層般選擇csv或json等文本格式，也不做分區，以盡量簡化數據同步。數據倉庫則選擇orc或parquet，以提升數據離線計算性能。

　　數據集市這塊可以選擇將數據灌回傳統數據庫(RDBMS)，也可以停留在數據分析平臺，使用NoSQL提供數據查詢或用Apache Kylin來構建數據立方體，提供SQL查詢接口。

　　2、數據同步：我們通過數據同步功能使得數據到達接入層，使用到了Sqoop和Kafka。數據同步可以分為全量同步和增量同步，對于小表可以采用全量同步，對于大表全量同步是比較耗時的，般都采用增量同步，將變動同步到數據平臺執行，以達到兩邊數據致的目的。

　　全量同步使用Sqoop來完成，增量同步如果考慮定時執行，也可以用Sqoop來完成。或者，也可以通過Kafka等MQ流式同步數據，前提是外部數據源會將變動發送到MQ。

　　3、ETL及離線計算：我們使用Yarn來統管理和調度計算資源。相較Map/Reduce，Spark SQL及Spark RDD對開發人員更友好，基于內存計算效率也更高，所以我們使用Spark on Yarn作為分析平臺的計算選型。

　　ETL可以通過Spark SQL或Hive SQL來完成，Hive在2.0以后支持存儲過程，使用起來更方便。當然，出于性能考慮Saprk SQL也是不錯的選擇。

下一篇:大數據概念及應用_奇酷大數據培訓上一篇:未來大數據應用前景怎么樣?奇酷大數

亚洲视频精品_木耳av在线_成年人免费看_久久精品香蕉_激情国产精品_亚洲第一se情网站

大數據培訓：基于Hadoop的數據分析平臺搭建方法

欄目導航

奇酷熱點

常見問題

奇酷技術交流中心

相關文章