作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
4.在Hive中檢視并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。
(1)查詢前10條微網誌内容
(2)查詢帶有“我”字的微網誌内容
(3)查詢帶有“我”字的微網誌動态前10條的id
(4)查詢第10和第25條微網誌内容
(5)查詢資料庫微網誌内容總數
(6)查詢包含“我“字的微網誌内容總數
(7)查詢後十條内容
(8)查詢含“加油”的前十條内容