大資料應用期末總評

本次作業來源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

一、課程評分标準：

分數組成：

考勤 10

平時作業 30

爬蟲大作業 25

Hadoop生态安裝與配置 10

分布式檔案系統HDFS

分布式并行計算MapReduce

Hadoop綜合大作業 25

評分标準：

難易程度

資料量

文章品質：描述、分析與總結

二、17周示範檢查：《爬蟲大作業》和《Hadoop綜合大作業

三、Hadoop綜合大作業要求：

由于爬蟲大作業我沒有生成CSV檔案，是以在Hadoop大作業中做2012年-2017年期間的四六級考試試卷中出現單詞的統計。

1.将爬蟲大作業産生的csv檔案上傳到HDFS

2.對CSV檔案進行預處理生成無标題文本檔案

配置.sh檔案

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

4.在Hive中檢視并分析資料

建立hive資料庫：

5.用Hive對爬蟲大作業産生的進行資料分析，寫一篇部落格描述你的分析過程和分析結果。（10條以上的查詢分析）

1）檢視全部單詞個數：

2）查詢出現最多的單詞及其中文意思

3）查詢單詞次數出現頻率超過400次的單詞以及中文意思：

4）查詢單詞出現次數最少的10個單詞及中文意思

5）單詞出現次數為3的個數：

6）查詢單詞次數出現前10個：

7）查詢所有單詞中含名詞n.的個數：

8）查詢所有單詞中動詞vi的個數：

9）查詢所有單詞中形容詞adj的個數：

10）查詢所有單詞中副詞adv.的個數：

分析：根據對資料庫的操作可以看出近幾年四六級試卷中單詞出現的頻率統計，以及出現單詞的個數；從分析得到出現最多的單詞是more，最少出現的單詞至少為3次。

名詞的出現次數為：2180個。

四、材料送出方式及日期