天天看點

hadoop綜合大作業

作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

 本次選取的是爬取歌曲《Five Hours》的歌評資料

1.将爬蟲大作業産生的csv檔案上傳到HDFS

hadoop綜合大作業
hadoop綜合大作業
hadoop綜合大作業

2.對CSV檔案進行預處理生成無标題文本檔案

hadoop綜合大作業
hadoop綜合大作業

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

建立資料庫:

hadoop綜合大作業

建立pinlun表:

hadoop綜合大作業

建立yonghu表:

hadoop綜合大作業

4.在Hive中檢視并分析資料

查詢pinlun表:

hadoop綜合大作業

查詢yonghu表:

hadoop綜合大作業

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

由于本次試驗的資料未經過有效清洗,是以存在部分高名額的資料(這是被爬取的使用者刷的),是以可能會對資料的分析有一定的影響,但時間緊促,望諒解。

(1)查詢點贊數前15的評論

hadoop綜合大作業

分析:在點贊最多的評論中,大多是在描述自己的生活情況,和寫口嗨詩,可以看出網友對這首電音的素質的肯定和其節奏的優秀。

(2)查詢點贊數前15的使用者資訊

hadoop綜合大作業
hadoop綜合大作業

(3)查詢男女數量比例

hadoop綜合大作業

分析:其中0表示沒有設定性别,NULL是資料的錯誤為無意義的,1表示性别為男性,2表示性别為女性,從數量上可以看出男性對這首歌更感興趣一些。

(4)男性點贊數前15的評論

hadoop綜合大作業
hadoop綜合大作業

分析:在男性點贊前15的評論中(除去重複),都是在寫在聽這首電音時内心的獨白,證明這首音樂的确能夠使人的思維變得積極和亢奮。

(5)女性點贊數前15的評論

hadoop綜合大作業
hadoop綜合大作業

分析:在女性點贊前15的評論中(除去重複),都是在描述日常生活的情景,說明這首音樂也可以讓人放松精神。

(6)評論使用者中的平均等級

hadoop綜合大作業

分析:在這首歌的評論中,使用者的平均等級為六點多,從網易雲音樂的使用者等級制度來看,評論的使用者使用這個平台時間挺長的。

(7)評論使用者的等級分布

hadoop綜合大作業

分析:在等級分布來看,使用者等級在6、7、8級的比較多,可以看出大部分都是音樂愛好者。

(8)評論使用者中的平均年齡

hadoop綜合大作業

分析:聽衆年齡大多數集中在19-20歲,證明這首音樂的确受到年輕人的喜愛。

(9)評論使用者的城市前十分布

hadoop綜合大作業
hadoop綜合大作業

分析:(NULL為預處理錯誤,無意義)根據城市編号和使用者的城市分布來看,使用者主要分布在北京、廣東、上海等地區。

(10)粉絲數前15的使用者的評論

hadoop綜合大作業
hadoop綜合大作業

分析:(除去重複資料後)一些粉絲數較多的使用者也對這首歌的評價也相對積極,說明這首歌确實很不錯吧。

 (11)關注數前15的使用者評論

hadoop綜合大作業
hadoop綜合大作業

分析:(除去重複資料)在關注數前15的使用者評論中,出現了相同的使用者評論了多條評論,說明這些使用者熱衷于評論音樂

(12)評論使用者中平均聽歌數量

hadoop綜合大作業

分析:在評論使用者中,平均聽歌數量接近兩千,可以說他們都非常喜愛音樂了。