作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
轉為txt檔案上傳到hdfs上
建立資料庫
4.在Hive中檢視并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析。
1.查詢評論的總條數
2.統計不同時間評論的個數
3.查詢2019-4-24 号的評論情況
4.查詢評分情況為推薦的個數
5.根據贊同次數大小排序查詢
6.統計觀看過影片的人數
7.查詢有多少不同的評論日期
8.查詢總評分情況
分析:根據對資料庫的操作我們能看出觀衆對于這部影片的評價大部分都為推薦以上的。而獲得贊同次數最多的一條評論為31471次,證明使用者對于影片的感想還是挺相同的。是以說,這部影片值得一看。