天天看點

大資料應用期末總評

作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

前言:

  根據之前部落格搭的hadoop,對之前爬取出來的資料進行分析。

操作:

  1.将爬取的資料集abcde.csv展示出來:

大資料應用期末總評

  2.去掉标題行:

大資料應用期末總評

  3.對資料集檔案進行預處理操作,并生成abcde.txt檔案:

大資料應用期末總評

  4.啟動hadoop叢集,啟動HDFS:

大資料應用期末總評

  5.将資料集上傳到hdfs:

大資料應用期末總評

  6.建立資料庫并導入資料:

大資料應用期末總評

7.對導入的資料進行計數,有4980條資料:

大資料應用期末總評

8.對學曆要求進行分析,發現不限:1677,大學:2415,碩士:253,博士:5

大資料應用期末總評

 8.對城市分布進行分析發現北京占數最多,為1642,上海次之,為935,廣州第三,593

大資料應用期末總評

9.對公司人數進行分析,500以上人數的公司約占四分之一,50人以下的公司占404,說明實習僧招聘的公司規模的人數不算少。

大資料應用期末總評

10.對釋出的公司進行分組排序,發現幫範兒招聘職位最多,高達64,可能為獵頭公司。

大資料應用期末總評

11.對職位分類進行了分析,發現計算機/網際網路相關的分類占數最多,仍未飽和,前景不錯:

大資料應用期末總評