三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

2023-04-18 06:46:50

環境背景：

Hadoop僞分布式已經搭建完成

Hadoop2.6.0

Hadoop僞分布搭建見：

Hadoop僞分布式的搭建詳情https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

案例實施：

1.啟動叢集：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

2.進入虛拟機浏覽器位址欄localhost:50070和localhost:8088檢視叢集狀态：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

注：Wordcount是MapReduce的入門示例程式，相當于我們在學某個程式設計語言時寫的Hello World示例一樣。這個程式可以統計某個檔案中，各個單詞出現的次數。Wordcount程式自帶的jar包已經放置在hadoop安裝目錄下的 /share/hadoop/mapreduce 檔案夾中。

3.配置wordcount環境：

（1）進入Hadoop安裝路徑下可以看到：圖中的txt檔案為Hadoop自帶的測試檔案，這裡将進行自定義檔案進行操作。

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

（2）在這裡我們建立wordcount.txt檔案進行測試，文本内容如下：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

（3）在HDFS根目錄下建立input目錄：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

（4）将本地的wordcount.txt上傳到HDFS的input目錄下:

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

（5）檢視檔案是否上傳成功:

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

注：如圖出現/input和/input/wordcount.txt檔案即為上傳成功

4.運作wordcount案例:

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

注：使用hadoop jar指令 +mapreduce自帶的jar包路徑(絕對路徑)+檔案名+輸入路徑+輸出路徑 #此處jar包根據自身實際情況進行修改

運作過程注意觀察這幾處字樣，即為運作成功：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

5.檢視運作結果：

再次檢視運作結果檔案：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

可以看到，程式運作産生了很多檔案，其中/output/part -r -00000即為程式運作完成時的結果檔案，如下圖：

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

三十二、基于Hadoop僞分布式運作Hadoop自帶wordcount案例

環境背景：

案例實施：

基于Hadoop僞分布式運作Hadoop自帶wordcount案例完成

繼續閱讀

更改LYNC SIP位址

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

ubuntu14.04下安裝hbse1.0.1.1

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

nginx 安裝錯誤資訊解決

oracle安裝筆記--win7 Windows server 2008 安裝64位 oracle10g

Ambari介紹和架構原理