Hadoop綜合大作業

2019-06-20 19:53:00

作業來源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析

1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案

預處理：

使用awk腳本(com_pre_deal.sh)稍作處理，分隔開每一列

啟動hdfs

在hdfs上建立/bigdatacase/dataset檔案夾

把user_comment.txt上傳到HDFS中，并檢視前5條記錄

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

4.在Hive中檢視并分析資料

使用netstat -tunlp 檢視端口 :3306 LISION确定已經啟動了MySql資料庫（否則使用$service mysql start啟動）

啟動Hive，并建立一個資料庫dblab

建立外部表，把HDFS中的“/bigdatacase/dataset”目錄下的資料（注意要删除之前練習時的資料user_table.txt，隻剩下目标資料，否則會把資料疊加在一起！）加載到了資料倉庫Hive中

在Hive中檢視資料

5.用Hive對爬蟲大作業産生的進行資料分析，寫一篇部落格描述你的分析過程和分析結果。（8條以上的查詢分析）

①查詢統計總資料量

評分在超過9的有130部電影，證明高分電影占有比較低