作業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
1、把python爬取的資料傳到linux

2、去除資料的标題
3、把資料的逗号代替為 \t轉義字元
4、啟動hadoop叢集
5、把資料檔案上傳到hdfs
6、啟動hive
7、建立資料庫
8、建立表并把hdfs的資料導入表中
9、統計資料一共有1011條
10、統計出不是同一使用者評論的條數
11、列出前10名觀衆分數和時間
12、列出前10名觀衆的評論
13、統計評論分數大于4分(總5分)的評論條數,大部分是大于4分,說明
《何以為家》的好評率很高。
14、統計出男女人數(1男 2女 3未知)
15、列出各城市的評論數
16、統計北京的評論數
17、統計上海的評論數
18、統計廣州的評論數
19、統計深圳的評論數