hadoop綜合

對CSV檔案進行預處理生成無标題文本檔案，将爬蟲大作業産生的csv檔案上傳到HDFS

首先，我們需要在本地中建立一個/usr/local/bigdatacase/dataset檔案夾,具體的步驟為：

① cd /usr/local

② sudo mkdir bigdatacase

③ cd bigdatacase/

④ sudo mkdir dataset

⑤ cd dataset/

如下圖所示：

其次，我們把lagoupy.csv檔案放到下載下傳這個檔案夾中，并使用指令把lagoupy.csv檔案拷貝到我們剛剛所建立的檔案夾中，具體步驟如下：

① sudo cp /home/chen/下載下傳/lagoupy.csv /usr/local/bigdatacase/dataset/ #把lagoupy.csv檔案拷到剛剛所建立的檔案夾中

② head -5 small_test.csv #檢視這個檔案的前五行

對CSV檔案進行預處理生成無标題文本檔案，步驟如下：

① sudo sed -i '1d' lagoupy.csv #删除第一行記錄

② head -5 small_test.csv #檢視前五行記錄

接着，啟動hadoop，步驟如下：

① start-all.sh #啟動hadoop

② jps #檢視hadoop是否啟動成功

最後，我們把本地的檔案上傳至HDFS中，步驟如下：

① hdfs dfs -mkdir -p /bigdatacase/dataset #在hdfs上建立/bigdatacase/dataset

② hdfs dfs -ls /

③ hdfs dfs -put ./lagoupy.csv /bigdatacase/dataset #把本地檔案small_test.csv上傳至hdfs中

④ hdfs dfs -ls /bigdatacase/dataset #檢視

⑤ hdfs dfs -cat /bigdatacase/dataset/small_test.csv | head -5 #檢視hdfs中small_test.csv的前五行

把hdfs中的文本檔案最終導入到資料倉庫Hive中

首先，啟動hive，步驟如下：

① service mysql start #啟動mysql資料庫

② cd /usr/local/hive

③ ./bin/hive #啟動hive

① create database db; -- 建立資料庫dbpy

② use db;

③ create external table labling

④ select * from labling limit 10; -- 檢視lagou_py中前10行的資料

查詢條數統計分析

用聚合函數count()計算出表内有多少條行資料 hive> select count(*) from labling;

美國國籍的球員數：

美國國籍的球員：

查詢老鷹的球員：

查詢老鷹的球員數：

查詢球員2015年以後進入NBA的人數：

查詢2015年以後進入NBA球員的名字