作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
本次選取的是爬取歌曲《Five Hours》的歌評資料
1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
建立資料庫:
建立pinlun表:
建立yonghu表:
4.在Hive中檢視并分析資料
查詢pinlun表:
查詢yonghu表:
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
由于本次試驗的資料未經過有效清洗,是以存在部分高名額的資料(這是被爬取的使用者刷的),是以可能會對資料的分析有一定的影響,但時間緊促,望諒解。
(1)查詢點贊數前15的評論
分析:在點贊最多的評論中,大多是在描述自己的生活情況,和寫口嗨詩,可以看出網友對這首電音的素質的肯定和其節奏的優秀。
(2)查詢點贊數前15的使用者資訊
(3)查詢男女數量比例
分析:其中0表示沒有設定性别,NULL是資料的錯誤為無意義的,1表示性别為男性,2表示性别為女性,從數量上可以看出男性對這首歌更感興趣一些。
(4)男性點贊數前15的評論
分析:在男性點贊前15的評論中(除去重複),都是在寫在聽這首電音時内心的獨白,證明這首音樂的确能夠使人的思維變得積極和亢奮。
(5)女性點贊數前15的評論
分析:在女性點贊前15的評論中(除去重複),都是在描述日常生活的情景,說明這首音樂也可以讓人放松精神。
(6)評論使用者中的平均等級
分析:在這首歌的評論中,使用者的平均等級為六點多,從網易雲音樂的使用者等級制度來看,評論的使用者使用這個平台時間挺長的。
(7)評論使用者的等級分布
分析:在等級分布來看,使用者等級在6、7、8級的比較多,可以看出大部分都是音樂愛好者。
(8)評論使用者中的平均年齡
分析:聽衆年齡大多數集中在19-20歲,證明這首音樂的确受到年輕人的喜愛。
(9)評論使用者的城市前十分布
分析:(NULL為預處理錯誤,無意義)根據城市編号和使用者的城市分布來看,使用者主要分布在北京、廣東、上海等地區。
(10)粉絲數前15的使用者的評論
分析:(除去重複資料後)一些粉絲數較多的使用者也對這首歌的評價也相對積極,說明這首歌确實很不錯吧。
(11)關注數前15的使用者評論
分析:(除去重複資料)在關注數前15的使用者評論中,出現了相同的使用者評論了多條評論,說明這些使用者熱衷于評論音樂
(12)評論使用者中平均聽歌數量
分析:在評論使用者中,平均聽歌數量接近兩千,可以說他們都非常喜愛音樂了。