天天看點

Hadoop綜合大作業

1.将爬蟲大作業産生的csv檔案上傳到HDFS

此處選取的是AllSinger.csv檔案,共計35084條資料

Hadoop綜合大作業

建立檔案夾

Hadoop綜合大作業

啟動hadoop

Hadoop綜合大作業

在hdfs上建立檔案

Hadoop綜合大作業

将檔案上存到hdfs

Hadoop綜合大作業

2.對CSV檔案進行預處理生成無标題文本檔案

編輯pre_deal.sh檔案進行資料的取舍處理

Hadoop綜合大作業

使得pre_deal.sh中的内容生效。

Hadoop綜合大作業

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

建立資料庫dblab

Hadoop綜合大作業

  建立表database_hzj并把hdfs中/database/data/目錄下的資料加載到表中

Hadoop綜合大作業

4.在Hive中檢視并分析資料

Hadoop綜合大作業

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

1.網易雲音樂裡歌手姓李的人數

Hadoop綜合大作業
Hadoop綜合大作業

2..歌手資訊裡面華語歌手個數

Hadoop綜合大作業
Hadoop綜合大作業

3.歌手資訊裡面華語男歌手個數

Hadoop綜合大作業
Hadoop綜合大作業

4.歌手資訊裡面歐美歌手個數

Hadoop綜合大作業

5.歌手資訊裡面歐美女歌手個數

Hadoop綜合大作業

6.查找有沒有陳奕迅

Hadoop綜合大作業

7.歌手資訊裡面歐美男歌手個數

Hadoop綜合大作業

8.歌手資訊裡面歐美組合個數

Hadoop綜合大作業

9.歌手資訊裡面華語女歌手個數

Hadoop綜合大作業

10.歌手資訊裡面華語組合個數

Hadoop綜合大作業