天天看點

大資料應用期末總評

作業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop綜合大作業 要求:

1.将爬蟲大作業産生的csv檔案上傳到HDFS

大資料應用期末總評

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

檢視HDFS上兩個檔案内容

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

2.對CSV檔案進行預處理生成無标題文本檔案

大資料應用期末總評
大資料應用期末總評

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

4.在Hive中檢視并分析資料

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

(1)查詢不重複id的評論數

大資料應用期末總評

(2)查詢評論使用者總人數

大資料應用期末總評

(3)性别為‘女’的評論數如下

大資料應用期末總評

(4)性别為‘保密’的評論數如下

大資料應用期末總評

 (5)性别為‘男‘的評論數如下

大資料應用期末總評

(6)根據使用者的評論時間進行篩選,對時間進行分組統計,得出評論數最多的時間

大資料應用期末總評
大資料應用期末總評

 (7)查詢不重複昵稱的評論數

大資料應用期末總評

(8)查詢評論次數最多的20個使用者

大資料應用期末總評
大資料應用期末總評

(9)查詢各個評分等級的數量

大資料應用期末總評
大資料應用期末總評

(10)查詢表2前十條資料

大資料應用期末總評