天天看點

Hadoop綜合大作業

1導入資料表并且去掉頭部的第一條資料,然後檢視簽名5條資料

Hadoop綜合大作業

2 預處理,建立一個腳本檔案pre_deal.sh,對資料表中的位址進行省份轉換:

Hadoop綜合大作業

3轉換後的txt表,可以看見有中文的地區名

Hadoop綜合大作業

4 開啟Hadoop,hive

Hadoop綜合大作業

5 在hdfs上建立一個bigdatacase/dataset檔案夾

Hadoop綜合大作業

6将之前轉換後的txt檔案上傳到hdfs上面,然後檢視内容

Hadoop綜合大作業

7開啟MySQL和hive

Hadoop綜合大作業

8建立資料庫dblab,并通過指令“use dblab”打開和使用資料庫:

Hadoop綜合大作業

 9查找使用者地區為北京市,

Hadoop綜合大作業

10 查詢使用者年齡大于18并且小于30的,

分析:總共有700多條,占了3分之一的人數,看出該音樂的聽衆年齡範圍還是很廣的

Hadoop綜合大作業

11查詢該音樂有多少評論數,

分析:總數是2108條評論,雖然不是很多,但也是可以用來分析資料的了

Hadoop綜合大作業

12查找沒有設定性别的人數,

分析:598/2108 大約是4分之一的人都沒有設定使用者性别,絕大多數使用者對于隐私還是比較看重的了

Hadoop綜合大作業

13查詢點贊人數最多的前二十條資料,

分析:可以看出評論點贊最多的還是歌詞本身的内容

Hadoop綜合大作業

14查找歌曲名字出現在評論的次數是多少,

分析:人們還是挺在意歌曲名字的

Hadoop綜合大作業

15檢視劇中主角之一被提到的次數,

分析:被提到的次數隻有個位數,可見該人們更傾向其他内容評論

Hadoop綜合大作業

16檢視評論中的男生人數有多少,

分析:發現占比1058/2018 接近一半都是男生在評論,也就是男女比例差不多

Hadoop綜合大作業

17檢視廣東的男生評論人數有多少,

分析:廣東地區聽這首音樂的人不是太多

Hadoop綜合大作業

18 檢視評論最常的位元組長度(147個位元組) ,

分析:評論的短小顯示出該音樂的的熱點并不是很高

Hadoop綜合大作業