1.将爬蟲大作業産生的csv檔案上傳到HDFS
此處選取的是AllSinger.csv檔案,共計35084條資料

建立檔案夾
啟動hadoop
在hdfs上建立檔案
将檔案上存到hdfs
2.對CSV檔案進行預處理生成無标題文本檔案
編輯pre_deal.sh檔案進行資料的取舍處理
使得pre_deal.sh中的内容生效。
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
建立資料庫dblab
建立表database_hzj并把hdfs中/database/data/目錄下的資料加載到表中
4.在Hive中檢視并分析資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
1.網易雲音樂裡歌手姓李的人數
2..歌手資訊裡面華語歌手個數
3.歌手資訊裡面華語男歌手個數
4.歌手資訊裡面歐美歌手個數
5.歌手資訊裡面歐美女歌手個數
6.查找有沒有陳奕迅
7.歌手資訊裡面歐美男歌手個數
8.歌手資訊裡面歐美組合個數
9.歌手資訊裡面華語女歌手個數
10.歌手資訊裡面華語組合個數