作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
一、課程評分标準:
分數組成:
考勤 10
平時作業 30
爬蟲大作業 25
Hadoop生态安裝與配置 10
分布式檔案系統HDFS
分布式并行計算MapReduce
Hadoop綜合大作業 25
評分标準:
難易程度
資料量
文章品質:描述、分析與總結
二、17周示範檢查:《爬蟲大作業》和《Hadoop綜合大作業》
三、Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS
2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
4.在Hive中檢視并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
四、材料送出方式及日期
- 每人送出一個檔案夾,以學号姓名命名
- 個人檔案夾裡包含三個作業的材料:
- 代碼
- 結果
- 部落格文章
- 請在2019/06/21 日期之前送出給學委
- 學委收齊後,整理刻錄一張CD光牒交給老師。
- 空白CD光牒可找老師領取
- 建一個班級檔案夾,裡面放一個一個同學的檔案夾,都不要壓縮

(1)檢視排名前十的資料
(2)檢視資料的總數量
(3)檢視有多少不重複id的數量
(4)檢視釋出評論前20名的使用者名
(5)檢視釋出評論前20名的省份
(6)檢視釋出評論前20名的評論
(7)檢視釋出評論前20名的評分
(8)檢視評分為5的使用者數
(9)檢視使用者省份為上海的使用者數
(10)檢視使用者省份為廣州的使用者數
爬取的資料截圖