天天看點

hadoop綜合大作業

作業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1、把python爬取的資料傳到linux

hadoop綜合大作業

2、去除資料的标題

hadoop綜合大作業

3、把資料的逗号代替為 \t轉義字元

hadoop綜合大作業

4、啟動hadoop叢集

hadoop綜合大作業

5、把資料檔案上傳到hdfs

hadoop綜合大作業

6、啟動hive

hadoop綜合大作業

7、建立資料庫

hadoop綜合大作業

8、建立表并把hdfs的資料導入表中

hadoop綜合大作業

 9、統計資料一共有1011條

hadoop綜合大作業

 10、統計出不是同一使用者評論的條數

hadoop綜合大作業

11、列出前10名觀衆分數和時間

hadoop綜合大作業

12、列出前10名觀衆的評論

hadoop綜合大作業

13、統計評論分數大于4分(總5分)的評論條數,大部分是大于4分,說明

《何以為家》的好評率很高。

hadoop綜合大作業

14、統計出男女人數(1男 2女 3未知)

hadoop綜合大作業

15、列出各城市的評論數

hadoop綜合大作業

 16、統計北京的評論數

hadoop綜合大作業

17、統計上海的評論數 

hadoop綜合大作業

18、統計廣州的評論數

hadoop綜合大作業

19、統計深圳的評論數

hadoop綜合大作業