天天看點

《Hadoop海量資料處理:技術詳解與項目實戰(第2版)》一2.4 安裝Hive

本節書摘來異步社群《hadoop海量資料處理:技術詳解與項目實戰(第2版)》一書中的第2章,第2.4節,作者: 範東來 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

在這一節,我們将進行hive的安裝。與安裝hadoop相比,hive的安裝非常簡單,并且有些工作已經在安裝hadoop的時候完成,例如jdk的安裝。并且hive作為hadoop的一個用戶端,運作方式并不分為單機模式、僞分布模式、完全分布模式,是以不管讀者在上一節選擇僞分布模式或者完全分布模式安裝hadoop,安裝hive的方式隻有一種。

安裝hive的步驟分為以下兩步。

(1)安裝中繼資料庫。

(2)修改hive配置檔案。

由于hadoop選擇的cloudera的cdh5版本,為了不出現相容性的問題,hive也選擇cdh5的版本,完整的版本号為hive-1.1.0-cdh5.6.0。不管讀者采用僞分布模式還是完全分布模式安裝hadoop,hive可以被安裝至叢集任意一個節點(以主節點為例)。

hive的中繼資料和資料是分開存放的,資料存放在hdfs上,而中繼資料預設是存在hive自帶的derby資料庫,但由于derby隻支援同時一個使用者通路hive,是以不推薦使用。我們将使用mysql作為hive的中繼資料庫。執行以下指令(以root使用者在主節點執行)。

安裝mysql用戶端:

安裝mysql伺服器端:

檢視mysql狀态、啟動及停止:

啟動mysql服務後,以root使用者登入mysql執行指令:

建立資料庫hive,用來儲存hive中繼資料:

使hadoop(作業系統使用者)使用者可以操作資料庫hive中的所有表:

這樣,hive的中繼資料庫就安裝完成。

先将hive的安裝檔案解壓,将hive的安裝包移至/opt下,以hadoop使用者在master執行:

和hadoop相同,hive的配置檔案還是存放在/opt/hive-1.1.0-cdh5.6.0/conf路徑下,以hadoop使用者建立檔案hive-site.xml,添加以下内容:

修改/opt/hive-1.1.0-cdh5.6.0/conf/hive-env.sh檔案,以hadoop使用者在檔案末尾追加:

将mysql的jdbc驅動jar包移到hive-1.1.0-cdh5.6.0/lib檔案夾下,否則hive不能成功連接配接mysql,最後還需配置環境變量,以root使用者在/etc/profile檔案末尾追加:

追加後執行指令使環境變量立即生效:

首先啟動hadoop和mysql,然後執行:

進入hive指令行,執行指令,建立一個名為test的表,并查詢該表的記錄數:

如無異常并且結果顯示為0,則安裝成功。