作業來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1.将爬蟲大作業産生的csv檔案上傳到HDFS
2.對CSV檔案進行預處理生成無标題文本檔案

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
4.在Hive中檢視
并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
一、滿意度調查
資料總共12900條,其中五星評分的有5612條,占43.5%;其中4.5星有1897條,占14.7%;其中4星有2021,占15.67%。
以4.0以上看做滿意,可得出對該影片滿意的有73.87%。
二、查詢評論數量最多的五個城市
select city ,count(*) as a from zz group by city order by a desc limit 5;
分别是北京490條、上海426條、深圳401條、廣州390條、成都382條。
三、