大資料應用期末總評

2019-06-20 17:26:00

作業要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

一、課程評分标準：

分數組成：

考勤 10

平時作業 30

爬蟲大作業 25

Hadoop生态安裝與配置 10

分布式檔案系統HDFS

分布式并行計算MapReduce

Hadoop綜合大作業 25

評分标準：

難易程度

資料量

文章品質：描述、分析與總結

二、17周示範檢查：《爬蟲大作業》和《Hadoop綜合大作業》

三、Hadoop綜合大作業要求：

1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

4.在Hive中檢視并分析資料

5.用Hive對爬蟲大作業産生的進行資料分析，寫一篇部落格描述你的分析過程和分析結果。（10條以上的查詢分析）

四、材料送出方式及日期

(1)檢視排名前十的資料

(2)檢視資料的總數量

(3)檢視有多少不重複id的數量

(4)檢視釋出評論前20名的使用者名

(5)檢視釋出評論前20名的省份

(6)檢視釋出評論前20名的評論

(7)檢視釋出評論前20名的評分

(8)檢視評分為5的使用者數

(9)檢視使用者省份為上海的使用者數

(10)檢視使用者省份為廣州的使用者數

爬取的資料截圖