豆瓣電影網-《複仇者聯盟4》影評
一:将爬蟲大作業産生的csv檔案上傳到HDFS
首先我把爬到的評論先進行預處理

然後上傳到HDFS裡面
檢視前5條評論,看看是否上傳成功
二:對資料進行分割處理
執行deal.sh 對資料進行分割預處理并輸出形成lht.txt
三.把hdfs中的文本檔案最終導入到資料倉庫Hive中
檢視資料前5顯示出來,處理資料之後,相比起之前看起來整齊很多
四.在Hive中檢視并分析資料
啟動hive之後進行建立資料庫再創表,表的名字為“bbb”,并且定義表的屬性
五.用Hive對爬蟲大作業産生的進行資料分析
對爬蟲大作業生成的csv進行篩選:分别對不同的評分進行統計。
5分
4分
3分
2分
1分
從上面的統計結果可以看出,這部電影的評分是相當的高的,5分和4分的人數占了98%,而低于或等于3分的隻占了2%。
統計了一下平均的評分,達到了4.56的高分,證明這電影是票房冠軍的有力競争者
統計出評分5分的忠實粉絲最多的15個城市,從高到低的順序排列
可以看出很多的忠實粉絲都在一線城市。
評分星級大于4的粉絲集中所在的排名前20的城市。
綜上可以看出,一線城市觀看的人數是比較多的,這可以側面反應出一線城市的電影院數量和場次都是很多的,也可以反映出商家的電影宣傳是做的很好的。
觀衆觀看時間分析:
電影的上映時間是4月26日,但是評論時間最多的卻是6月1日附近,說明大多是觀看的人都沒有時間第一時間觀看電影,而且選擇在節假日去觀看電影。
生成詞雲