天天看點

大資料應用期末總評

豆瓣電影網-《複仇者聯盟4》影評

   一:将爬蟲大作業産生的csv檔案上傳到HDFS

          首先我把爬到的評論先進行預處理

大資料應用期末總評

     然後上傳到HDFS裡面

大資料應用期末總評

   檢視前5條評論,看看是否上傳成功

大資料應用期末總評

  二:對資料進行分割處理

      執行deal.sh 對資料進行分割預處理并輸出形成lht.txt

大資料應用期末總評

  三.把hdfs中的文本檔案最終導入到資料倉庫Hive中

     檢視資料前5顯示出來,處理資料之後,相比起之前看起來整齊很多

大資料應用期末總評

  四.在Hive中檢視并分析資料

     啟動hive之後進行建立資料庫再創表,表的名字為“bbb”,并且定義表的屬性

大資料應用期末總評

五.用Hive對爬蟲大作業産生的進行資料分析

    對爬蟲大作業生成的csv進行篩選:分别對不同的評分進行統計。

     5分

大資料應用期末總評

     4分 

大資料應用期末總評

     3分

大資料應用期末總評

     2分

大資料應用期末總評

     1分

大資料應用期末總評

    從上面的統計結果可以看出,這部電影的評分是相當的高的,5分和4分的人數占了98%,而低于或等于3分的隻占了2%。

    統計了一下平均的評分,達到了4.56的高分,證明這電影是票房冠軍的有力競争者

大資料應用期末總評

     統計出評分5分的忠實粉絲最多的15個城市,從高到低的順序排列

大資料應用期末總評

  可以看出很多的忠實粉絲都在一線城市。

大資料應用期末總評

評分星級大于4的粉絲集中所在的排名前20的城市。

大資料應用期末總評

綜上可以看出,一線城市觀看的人數是比較多的,這可以側面反應出一線城市的電影院數量和場次都是很多的,也可以反映出商家的電影宣傳是做的很好的。

觀衆觀看時間分析:

大資料應用期末總評

電影的上映時間是4月26日,但是評論時間最多的卻是6月1日附近,說明大多是觀看的人都沒有時間第一時間觀看電影,而且選擇在節假日去觀看電影。

   生成詞雲

大資料應用期末總評