作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
前言:
根據之前部落格搭的hadoop,對之前爬取出來的資料進行分析。
操作:
1.将爬取的資料集abcde.csv展示出來:
大資料應用期末總評 2.去掉标題行:
大資料應用期末總評 3.對資料集檔案進行預處理操作,并生成abcde.txt檔案:
大資料應用期末總評 4.啟動hadoop叢集,啟動HDFS:
大資料應用期末總評 5.将資料集上傳到hdfs:
大資料應用期末總評 6.建立資料庫并導入資料:
大資料應用期末總評 7.對導入的資料進行計數,有4980條資料:
大資料應用期末總評 8.對學曆要求進行分析,發現不限:1677,大學:2415,碩士:253,博士:5
大資料應用期末總評 8.對城市分布進行分析發現北京占數最多,為1642,上海次之,為935,廣州第三,593
大資料應用期末總評 9.對公司人數進行分析,500以上人數的公司約占四分之一,50人以下的公司占404,說明實習僧招聘的公司規模的人數不算少。
大資料應用期末總評 10.對釋出的公司進行分組排序,發現幫範兒招聘職位最多,高達64,可能為獵頭公司。
大資料應用期末總評 11.對職位分類進行了分析,發現計算機/網際網路相關的分類占數最多,仍未飽和,前景不錯:
大資料應用期末總評