作業來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析
1.将爬蟲大作業産生的csv檔案上傳到HDFS
2.對CSV檔案進行預處理生成無标題文本檔案

預處理:
使用awk腳本(com_pre_deal.sh)稍作處理,分隔開每一列
啟動hdfs
在hdfs上建立/bigdatacase/dataset檔案夾
把user_comment.txt上傳到HDFS中,并檢視前5條記錄
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
4.在Hive中檢視并分析資料
使用netstat -tunlp 檢視端口 :3306 LISION确定已經啟動了MySql資料庫(否則使用$service mysql start啟動)
啟動Hive,并建立一個資料庫dblab
建立外部表,把HDFS中的“/bigdatacase/dataset”目錄下的資料(注意要删除之前練習時的資料user_table.txt,隻剩下目标資料,否則會把資料疊加在一起!)加載到了資料倉庫Hive中
在Hive中檢視資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(8條以上的查詢分析)
①查詢統計總資料量
評分在超過9的有130部電影,證明高分電影占有比較低