天天看點

Hadoop綜合大作業

作業來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析

1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案

Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業

預處理:

 使用awk腳本(com_pre_deal.sh)稍作處理,分隔開每一列

Hadoop綜合大作業

啟動hdfs

Hadoop綜合大作業

在hdfs上建立/bigdatacase/dataset檔案夾

Hadoop綜合大作業

把user_comment.txt上傳到HDFS中,并檢視前5條記錄

Hadoop綜合大作業

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

4.在Hive中檢視并分析資料

使用netstat -tunlp 檢視端口 :3306 LISION确定已經啟動了MySql資料庫(否則使用$service mysql start啟動)

Hadoop綜合大作業

啟動Hive,并建立一個資料庫dblab

Hadoop綜合大作業

建立外部表,把HDFS中的“/bigdatacase/dataset”目錄下的資料(注意要删除之前練習時的資料user_table.txt,隻剩下目标資料,否則會把資料疊加在一起!)加載到了資料倉庫Hive中

Hadoop綜合大作業
Hadoop綜合大作業

在Hive中檢視資料

Hadoop綜合大作業

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(8條以上的查詢分析)

①查詢統計總資料量

Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業

評分在超過9的有130部電影,證明高分電影占有比較低

下一篇: 安裝Hadoop