大數據培訓機構：淺談Hive vs. HBase

來源：奇酷教育發表于：2019-04-03 09:34:53

　　大數據培訓機構：淺談Hive vs HBase。對于剛接觸大數據分析的用戶來說，要想區分Hive與HBase是有一定難度的。本文將嘗試從其各自的

　　大數據培訓機構：淺談Hive vs. HBase。對于剛接觸大數據分析的用戶來說，要想區分Hive與HBase是有一定難度的。本文將嘗試從其各自的定義、特點、限制、應用場景等角度來進行分析，以作拋磚引玉之用。
大數據培訓機構大數據分析

　　Hive是什么？

　　Apache Hive是一個構建于Hadoop(分布式系統基礎架構)頂層的數據倉庫，注意這里不是數據庫。Hive可以看作是用戶編程接口，它本身不存儲和計算數據;它依賴于HDFS(Hadoop分布式文件系統)和MapReduce(一種編程模型，映射與化簡;用于大數據并行運算)。其對HDFS的操作類似于SQL—名為HQL，它提供了豐富的SQL查詢方式來分析存儲在HDFS中的數據;HQL經過編譯轉為MapReduce作業后通過自己的SQL 去查詢分析需要的內容;這樣一來，即使不熟悉MapReduce 的用戶也可以很方便地利用SQL 語言查詢、匯總、分析數據。而MapReduce開發人員可以把己寫的mapper 和reducer 作為插件來支持Hive 做更復雜的數據分析。

　　HBase是什么？

　　Apache HBase是運行于HDFS頂層的NoSQL(=Not Only SQL，泛指非關系型的數據庫)數據庫系統。區別于Hive，HBase具備隨即讀寫功能，是一種面向列的數據庫。HBase以表的形式存儲數據，表由行和列組成，列劃分為若干個列簇(row family)。例如：一個消息列簇包含了發送者、接受者、發送日期、消息標題以及消息內容。每一對鍵值在HBase會被定義為一個Cell，其中，鍵由row-key(行鍵)，列簇，列，時間戳構成。而在HBase中每一行代表由行鍵標識的鍵值映射組合。Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器，來增加計算和存儲能力。

　　特性

　　遵從JDBC的Hive不但可以讓具SQL知識的用戶來間接執行MapReduce作業，同時里面也整合了目前基于SQL的操作工具。不過，由于默認的數據讀取是全表遍歷的，其時間的耗費也不可避免地相對較大。盡管如此，不盡相同的Hive分區方法，其遍歷讀取的數據量也是能夠有所限制的。Hive分區允許對存儲在獨立文件上的數據進行篩選查詢，返回的是篩選后的數據。例如針對日期的日志文件訪問，前提是該類文件的文件名包含日期信息。

　　HBase以鍵值對的形式儲存數據。其包含了4種主要的數據操作方式:

　　添加或更新數據行

　　掃描獲取某范圍內的cells

　　為某一具體數據行返回對應的cells

　　從數據表中刪除數據行/列，或列的描述信息

　　列信息可用于獲取數據變動前的取值(透過HBase壓縮策略可以刪除列信息歷史記錄來釋放存儲空間)。

　　限制

　　Hive不支持常規的SQL更新語句，如：數據插入，更新，刪除。因為其對數據分析的操作是針對整個數據表的。同時該特點也使得數據查詢用時以數分鐘甚至數小時來進行計算。此外，其MapReduce轉換過程必須遵從預定義的轉換規則。

　　HBase的數據查詢是有一套屬于自己類似SQL的操作語言的，這個需要一定的學習來掌握。此外，要運行HBase，ZooKeeper是需要配備的。ZooKeeper是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。

　　應用舉例

　　Hive適用于網絡日志等數據量大、靜態的數據查詢。例如：用戶消費行為記錄，網站訪問足跡等。但是不適用于聯機實時在線查詢的場合。

　　HBase能在大數據聯機實時查詢場合大展身手。例如：Fackbook就利用其對用戶間的傳送的消息進行聯機實時分析。

　　小結

　　Hive與HBase兩者是基于Hadoop上不同的技術。Hive是一種能執行MapReduce作業的類SQL編程接口，Hbase是一種非關系型的數據庫結構。結合這兩者自身的特點，互相結合使用或許能收到相得益彰的效果。例如：利用Hive處理靜態離線數據，利用HBase進行聯機實時查詢，而后對兩者間的結果集進行整合歸并，從而使得數據完整且永葆青春，為進一步的商業分析提供良好支持。

下一篇:大數據培訓機構是做什么的大數據上一篇:大數據培訓機構：Hadoop和Spark項目案例

Python交流群
635448130點擊加入群聊
UI設計交流群
579150876點擊加入群聊
Unity交流群
495609038點擊加入群聊
HTML5交流群
645591648點擊加入群聊

大數據培訓機構：淺談Hive vs. HBase

欄目導航

奇酷熱點

常見問題

奇酷技術交流中心

相關文章