作業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS
大資料應用期末總評

檢視HDFS上兩個檔案内容
2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
4.在Hive中檢視并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
(1)查詢不重複id的評論數
(2)查詢評論使用者總人數
(3)性别為‘女’的評論數如下
(4)性别為‘保密’的評論數如下
(5)性别為‘男‘的評論數如下
(6)根據使用者的評論時間進行篩選,對時間進行分組統計,得出評論數最多的時間
(7)查詢不重複昵稱的評論數
(8)查詢評論次數最多的20個使用者
(9)查詢各個評分等級的數量
(10)查詢表2前十條資料