天天看點

Hadoop綜合大作業

作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop綜合大作業 要求:

1.将爬蟲大作業産生的csv檔案上傳到HDFS

Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業

2.對CSV檔案進行預處理生成無标題文本檔案

Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

Hadoop綜合大作業
Hadoop綜合大作業

4.在Hive中檢視并分析資料

Hadoop綜合大作業

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

 (1)查詢前10條微網誌内容

Hadoop綜合大作業

(2)查詢帶有“我”字的微網誌内容

Hadoop綜合大作業
Hadoop綜合大作業

(3)查詢帶有“我”字的微網誌動态前10條的id

Hadoop綜合大作業

(4)查詢第10和第25條微網誌内容

Hadoop綜合大作業

(5)查詢資料庫微網誌内容總數

Hadoop綜合大作業

(6)查詢包含“我“字的微網誌内容總數

Hadoop綜合大作業

(7)查詢後十條内容

Hadoop綜合大作業

(8)查詢含“加油”的前十條内容

Hadoop綜合大作業
Hadoop綜合大作業