資料讀取
了解資料
資料清洗
資料分析
1、資料讀取
2、了解資料
字段解釋
position - 職位
salary_range - 薪水區間
work_year - 工作經驗
city - 城市
tag1 - 技能标簽1
tag2 - 技能标簽2
tag3 - 技能标簽3
tag4 - 技能标簽4
tag5 - 技能标簽5
company_name - 公司名稱
text - 未知
company_type - 公司類型
company_welfare -公司福利
3、資料清洗
對表中的position、salary_range、work_year、city、text、company_welfare字段資料進行清洗
總共有4482條資料。tag4、tag5、company_walfare列的有存在空缺資料,但空缺不多,而且這三個名額不是關鍵性名額,是以暫不做處理
4435 存在47條重複資料
position 字段清洗
發現存在異常資料,這裡需要對不相關的職位進行去除
3423
考慮資料類的崗位有資料營運、資料挖掘、商業分析師、算法工程師、etl工程師等
salary_range字段清洗
work_year字段中學曆資料和工作年限資料混雜在了一起,需要将其分列
學曆有7種資料格式:學曆不限、中專/中技、高中、大專、大學、碩士、博士
工作經驗有三種資料格式:x-x年、x天/周x個月、經驗不限。
work_year字段已清洗完畢,轉化為work_year和education_background兩列資料
text字段清洗
text字段包含了公司融資情況、公司類型、公司規模資料,需将其轉化分列,其中公司類型已存在(company_type)
隻需轉化為公司融資情況和公司規模兩列
清洗結果
4、資料分析
整體思路
資料類崗位整體需求
城市、學曆、工作經驗對薪水的影響
不同崗位對應的學曆要求、薪水分布情況
公司一般會用什麼福利待遇來吸引求職者
不同崗位要求的關鍵技能點是什麼
1、資料類崗位整體需求
要求
分析:
學曆要求:大專是最低要求,招高中或中專/中技的極少,最好是大學及以上
工作經驗需求:偏向招聘有一定經驗的求職者,尤其3-5年經驗的需求最旺盛。一般工作3年以上,對于整個職業的了解會比較深入,技術趨于成熟,能夠幫助做一些獨立的項目
崗位分布情況:北上廣深杭對其需求都差不多,相對來說北京機會最多,廣州偏少
公司融資情況:招聘資料類崗位的一般都是達到了一定規模的大型企業
行業分布情況:網際網路行業需求是最多的,包括電商、金融。還有一些乙方公司也有一定需求,比如資料服務類、咨詢類
薪資情況:受工作經驗影響較大,3年工作經驗薪資一般集中在20-30k,比較可觀
省略234
5、不同崗位要求的關鍵技能點是什麼
崗位要求
資料營運類崗位要求:基本的資料分析工具要掌握,熟悉sql,了解業務和産品,會資料挖掘和模組化更好
資料分析類崗位要求:熟悉sql、 r/python、hive,掌握基本的資料倉庫、資料挖掘、模組化的知識,具備一定的業務經驗
資料挖掘類崗位要求:熟悉python/r、spark、linux、hadoop、sql,掌握機器學習算法、資料結構等
關注公衆号:python爬蟲資料分析挖掘,免費擷取更多開源項目源碼