工欲善其事必先利其器,在經過大量的理論學習以後,需要有一個本地的研發環境來進行練手。已經工作的可以不依賴于公司的環境,在家也可以随意的練習。而自學大資料的同學,也可以進行本地練習,大資料是一門偏實踐的學科,在找工作之前進行一些實踐操作,也更利于對大資料知識的了解。
本文将從頭開始詳細的記錄整個大資料環境的搭建過程,本文所使用的筆記本電腦記憶體為16G,将使用CDH6.3.2管理整個大資料叢集。
由于cloudera官網從2021年2月1日起全面移除的非訂閱使用者的下載下傳連結,是以本文所有的安裝包都已經備份,可以關注 大資料流動 回複 CDH16G 擷取。

本文共四個部分,一定要保證每一個部分都安裝成功以後再向下進行。
首先要安裝好VMwareWorkstation軟體,随後建立三台centos系統的虛拟機,在三台虛拟機中搭建CDH大資料管理工具,最後使用CDH搭建大資料叢集。
首先我們使用VMwareWorkstation來快速的進行虛拟機的建立。VMwareWorkstation是一款功能強大的桌面虛拟計算機軟體,我們使用的版本為VMwareWorkstation 16.1.2。
1、打開安裝程式,點選下一步。
2、選擇接受條款,點選下一步。
3、修改安裝路徑,增強型虛拟鍵盤主要作用是提高安全性,這裡不勾選。點選下一步。
4、将檢查更新和體驗提升都去掉,點選下一步。
5、快捷方式看自己的情況選擇吧,點選下一步。
6、點選安裝,開始進行虛拟機安裝。
7、安裝完成後點選 許可證 用注冊機生成的密鑰進行産品激活。
8、點選完成,大功告成。VMwareWorkstation就成功安裝并激活了。
這樣,第一部分VMwareWorkstation軟體已經搭建完成。
首先準備Centos7的鏡像檔案,CentOS-7-x86_64-DVD-1908.iso。
請注意三台虛拟機的CPU初次設定為1核,記憶體設定為4G(這樣虛拟機占用12G,留出一些空間),硬碟為20G,這些以後也是可以修改的。
1、打開VMwareWorkstation,選擇建立虛拟機
2、選擇自定義安裝,點選下一步。
3、這裡不用修改,是VMware的版本和一些限制說明,點選下一步。
4、這裡先選擇稍後安裝作業系統,點選下一步。
5、選擇系統為Linux,版本為Centos7 64位,點選下一步。
6、修改虛拟機名稱,位置,點選下一步。
7、CPU預設為1核,點選下一步。
8、記憶體設定為4GB,點選下一步。
9、網絡使用預設的NAT,點選下一步。
10、I/O 使用預設
11、磁盤類型預設
12、建立新的虛拟磁盤
13、設定磁盤大小為20GB
14、預設檔案名
15、最後可以看到這些設定,點選完成。
16、虛拟機建立完成,可以繼續編輯虛拟機,将安裝鏡像挂載。
1、開啟此虛拟機
注意:點選進入虛拟機操作,要退出來的話使用 Ctrl + Alt
2、選擇安裝centos7
選擇語言
進行基本設定
設定密碼 Bigdataflowing
提示重新開機電腦
等待安裝完成,完成後重新開機。進入作業系統
此時的虛拟機是無法上網的,需要對網絡進行設定。
首先設定主機的網絡共享,再看一下vnet8的網絡ip,我的是192.168.137.0
在vmvare的虛拟網絡編輯器中,設定ip
進入虛拟機進行網卡設定
xshell遠端連接配接機器
一直在虛拟機裡操作是不友善的,是以我們通過xshell進行遠端連接配接。網絡已通,是以我們用使用者名密碼連接配接即可。
上面操作完成後,我們可以使用vmvare的克隆功能,快速的複制出其他兩台虛拟機。不過要記得複制完以後。進入系統把ip修改為不同的位址。
克隆虛拟機
克隆自 虛拟機中的目前狀态
完整克隆
克隆完成後,修改node02和node03的網絡設定。
此時将三台虛拟機開啟,最終的效果三台虛拟機正常運作,xshell可以遠端同時操作這三台機器。
這樣第二部分,三台centos虛拟機建立完成,下面我們可以進行CDH環境的安裝了。
CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop衆多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop建構,并內建了很多更新檔,可直接用于生産環境。
我們使用CDH6.3.2的版本進行安裝。
CDH分為Cloudera Manager管理平台和CDH parcel(parcel包含各種元件的安裝包),需要先安裝CM,再安裝parcel。
CM 6.3.1,CDH 6.3.2 (6.3.3版本及以上的要收費了)
元件版本支援情況
https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_63_packaging.html#cdh_630_packaging
1、修改檔案打開限制
2、關閉防火牆
3、修改主機名及hosts
4、免密設定
node01 設定
5、安裝jdk
6、關閉selinux
7、安裝ntp服務
8、node01安裝Mysql
建立CDH所需的資料庫:
9、各節點準備mysql8的驅動
1、配置本地yum源
驗證成功,浏覽器通路 http://192.168.127.101/cloudera-repos/cm6/
node01安裝cloudera manager server
初始化資料庫
3、node02 node03安裝agent
啟動
server 和agent 一起啟動,報錯看log /var/log/cloudera-scm-server
node01
node02 node03
通路網址 http://192.168.137.101:7180/cmf/login成功!
賬号密碼 admin/admin
那麼CDH管理工具已經安裝完成,下面我們使用CDH安裝Hadoop叢集環境。
開始安裝
同意條款
選擇安裝版本,可以選擇試用或者免費版
開始安裝,輸入叢集名稱
選擇主機
這裡有坑,直接選擇後邊沒法改存儲庫
這裡可以點上方按鈕進入首頁,先删除主機,再加回來
按下面設定好,大部分已經預設
JDK已經安裝 不用選
機器賬号密碼
這裡會做一些檢測,基本是一些警告,選擇 i understand 繼續。
下面進入到元件的安裝,由于記憶體有限,我們選擇自定義服務,先隻安裝hdfs和hive,zookeeper,其他的元件後續也可以增加。
要設定節點的配置設定,盡量平均就可以。
這裡全部連node01的mysql庫
一些hdfs設定,可以預設
等待安裝中。。
安裝基本完成。
安裝完成!可以愉快的玩耍了。
再提醒一下
大部分是Vmvare版本及鏡像問題,使用Vmvare16.1.2版本
問題分析:mysql版本8.0.13,在給新使用者授權時,發生了變化:
1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'identified by 'password' with grant option' at line 5, Time: 0.000000s
出錯的語句:
grant all privileges on . to 'root'@'172.16.10.203' identified by 'password' with grant option
修正後的語句:分開三次執行
建立賬戶
create user 'root'@'172.16.10.203' identified by 'password'
賦予權限,with grant option這個選項表示該使用者可以将自己擁有的權限授權給别人
grant all privileges on . to 'root'@'172.16.10.203' with grant option
改密碼&授權超使用者,flush privileges 指令本質上的作用是将目前user和privilige表中的使用者資訊/權限設定從mysql庫(MySQL資料庫的内置庫)中提取到記憶體裡
flush privileges;
錯誤提示安裝依賴的庫檔案沒有找到: libmysqlclient.so.18()(64bit)
解決:
缺少Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm這個包
wget http://www.percona.com/redir/downloads/Percona-XtraDB-Cluster/5.5.37-25.10/RPM/rhel6/x86_64/Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm
rpm -ivh Percona-XtraDB-Cluster-shared-55-5.5.37-25.10.756.el6.x86_64.rpm
centos7會開啟ipv6,需要禁用掉
vi /etc/default/grub
GRUB_CMDLINE_LINUX="ipv6.disable=1 crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
grub2-mkconfig -o /boot/grub2/grub.cfg
5、Parcel hash file missing: CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha
缺少CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha檔案,添加到指定目錄
14: curl#6 - "Could not resolve host: mirrorlist.centos.org; Unknown error"
yum源有問題,修改 /etc/yum.repos.d下yum配置檔案
檢視log看具體報錯資訊
大資料流動 專注于大資料實時計算,資料治理,資料可視化等技術分享與實踐。
請在背景回複關鍵字下載下傳相關資料。相關學習交流群已經成立,歡迎加入~