該作業要求來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1.将爬蟲大作業産生的csv檔案上傳到HDFS
我爬蟲作業爬取的是招聘網站對于JAVA的崗位資訊:共計15129條

建立檔案夾并且把檔案複制進去,并且嘗試打開檔案前5行
啟動hadoop,并且檢視jps,和在hdfs上面建立檔案夾
将檔案上傳到hdfs
2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
首先建立dbcmh資料庫
然後建立表
4.在Hive中檢視并分析資料
使用查詢語句查詢并且分析結果
首先我要分析的問題的,對于java的崗位的待遇要求有什麼,哪些最高,能吸引人員投履歷的哪些?
下面是我查詢的年底雙薪待遇的條數,有12757個。
帶薪年假這個待遇的崗位有6215個,
定期公司體檢身體的有4557個。
标有發展空間大的崗位有7765個。
績效獎金待遇的崗位有8692個。
提供技能教育訓練的崗位僅僅隻有1906個。這個也說明了公司給技能教育訓練的很少,很多崗位都希望能馬上進行工作,而不用教育訓練。要求較高,對于經驗要求很高。
提供五險一金的崗位有9061個,看來很多公司都會給從業人員五險一金的待遇。這個待遇對于找工作的人來說是非常看重的。
有部分公司的招聘寫着股票期權,但是僅僅隻有3538個。
年終獎是一個非常好的待遇,很多公司都有這個福利,現在查詢出有11143個崗位有這個待遇。是以可以看出,有無年終獎是很多投簡人的選擇要求。
綜上所述:經過分析,我發現年底雙薪、年終獎、五險一金,這三個待遇是很多公司都有的,這樣看來,很多擇業人員選擇崗位都想找有這些待遇的公司,因為這麼多崗位都發放出這些待遇,說明了目前很多人重視這些。