天天看点

基于Python的招聘网站信息爬取-计算机毕业设计源码+LW文档

作者:计算机毕业设计老师

选题背景

随着社会经济的快速发展,人们的生活水平得到了显著提高,但随之而来的社会问题也越来越多。其中最为显著的就是就业问题。为此,招聘信息的展示也变得越来越为重要。人们获取信息的最重要来源也由报纸、电视转变为了互联网。互联网的广泛应用使网络的数据量呈指数增长,让人们得到了更新、更完整的海量信息的同时,也使得人们在提取自己最想要的信息,过滤掉对自己无用的信息时变得不那么容易,对于应聘者也是如此。由于招聘网站的日益流行,也使得应聘网站成为了应聘者找工作的主要平台。在面对着大量的招聘信息时,就业者不能一目了然的获取自己想要的招聘信息,因此我们需要对海量的招聘数据进行处理,做出一种招聘信息的分析系统。招聘网站能使招聘者随时随地了解到招聘信息,同时提高企业招聘的速度。但是面对着大量的招聘信息,应聘者难以在很快的时间内找到适合自己的岗位,做出适合自己选择,也不能根据这些信息直观的看到应聘者比较关心的薪资状况分布,企业的主要招聘城市,公司福利和所要求的学历与经验等方面。因此,当下需要一个能够把招聘信息整合到一起并将信息可视化显示的系统,这样用户就可以通过该平台来进行查看招聘信息的薪资分布,企业福利,所在城市等,从而使求职者可以更快找到心仪的工作。

研究现状

国内研究现状:

近几年,随着国内信息技术的飞速发展,大陆网络招聘产业也发生了天翻覆地的变化,涌现出了大量的线上招聘网站,同时线上招聘的市场规模也在不断地扩大。根据数据分析统计,2017-2018年,中国的网络招聘市场规模各季度同比增速都保持在20%以上,到2019年网络招聘市场的用户数量已经超过了2亿,在第一季度它的市场规模就超过了25亿元。并且随着数据科学的兴起,数据挖掘和分析逐渐成为热门研究领域,关于网络招聘文本信息中蕴藏的价值开始显现,许多研究者开始对这一领域进行探索研究,提出以就业指导中心网站数据为基础,从招聘信息中获取各个学科建设和发展的建议,提高企业在进行校园招聘时的精准度,同时也能提高应届生的就业率,实现学校、企业和学生三方的共赢。[1]

国外研究现状:

目前,在美国等一些国家,通过网络进行招聘求职的形式深入人心[2],已经成为广大毕业生和社会人员进行求职就业的主要方式。而著名的跨国科技公司微软更是信息化管理的领航者,他们在进行网络招聘时,不仅对外发布招聘信息,同时也针对自己公司内部的员工。当有职位的招聘需求时,微软公司将统一发布在网上,不管是微软公司内部的员工还是外部人员都可以进行职位的申请,并且还支持内部员工跨国的职位申请。对于国内的网络招聘来说,主要是集中在一些发展比较好的一、二线城市,还有一部分地区网络求职的比例相对较低。

国内外招聘网站的不足之处在于此类招聘网站的岗位信息并不全面,很多实用岗位并未爬取到,而且也存在展示的岗位是虚假岗位的问题。

选题意义

对于即将毕业找工作的应届生和社会择业人员来说,上网快速找到合适的工作,无疑是急需的。招聘网站数据可视化项目从繁杂的招聘信息中提取出潜在的、有价值的数据,并以图形的形式进行直观化展示,将用户从一堆杂乱无章的数据里面解放出来[3]。通过该系统用户能够更加高效的理解和分析招聘数据信息,快速获取自身所需要的信息使得招聘信息能够更加明确、有效地进行传递。有利于用户明确学习方向,以及所需要掌握的工作技能和知识。

二、设计的基本思路、主要内容及其主要的研究方法等

1.基本思路

(1)根据所选题目涉及的内容,查阅相关技术资料及文献,对“招聘网站信息爬取和数据分析”相关流程进行理解分析,明确该项目应具有的特色和功能情况,以及按照实际情况进行更多形式的探索与研究。

(2)确定要爬取的招聘网站,以找出合适的数据。

(3)确定整体框架的技术选取。

(4)使用Request爬虫技术爬取数据,并将爬取的数据进行数据清洗及数据分析。

(5)连接数据库,将处理后的数据存入数据库。

(6)编写web网站的前端页面。

(7)使用Flask框架将数据返回给前端,并用ECharts对数据进行可视化展示。

(8)增加主页推荐功能。

(8)进行前后端调试,保证整个数据之间的正常展示与交互。

(9)对设计作品进行测试并不断完善,并最终完成具有良好的信息展示效果的设计作品。

(10)不断完善设计报告初稿,形成终稿毕业设计报告,完成毕业答辩。

2.主要内容

本招聘网站的爬虫及可视化系统使用的是Python语言编写,采用基于Flask的轻量级Web应用框架,招聘信息的存储数据库采用MySQL设计,使用ECharts进行招聘信息的数据可视化显示。

中心思想:

首先使用Request爬取网页数据,分析网页,将内容进行解析后将招聘信息写入数据库,连接数据库,将信息查询后读取并写入字典,使用ECharts框架,将数据传输到前端网页,以饼状图,柱状图,折线图等形式展示,让用户直观的看到招聘信息的地域,薪资,待遇等分布,直观的展示和获取到最关心的招聘信息。

功能概述:

爬取的所有的岗位招聘数据,可以通过学历和职位来选择查看满足条件的招聘信息,可以选择学历要求、输入职位来搜索更加精准的职位。

可视化:

(1)薪资情况:通过选择学历来查看各种岗位对于不同学历的薪资可视化情况,以柱状图、饼图的形式来展示各种职位的薪资分布、所占比例,提供给用户在找工作是作为参考。

(2)企业情况:通过选择职位可以来查看这个职位的主要招聘城市,还可以大概查看一下这个职位的公司规模情况,以及每个职位在各个主要城市所占的比例饼图。

(3)福利情况:通过数据可视化速览公司福利,基于词云进行构造,可以清晰看出所有公司最核心的福利待遇。

(4)学历情况:可以查看各个职位对学历以及工作经验的要求,以条形图、矩形树的形式进行可视化展示。

3.主要研究方法

本课题涉及到研究方法有文献研究法和功能分析法。

(1)文献研究法。

通过对不同python相关文献进行阅读研究,总结要点,从而全面地、正确地了解掌握招聘网站分析的方法。

(2)功能分析法。

通过功能分析法分析招聘网站的现象,总结出需要改进的地方。

三、计划进度安排:

1.完成开题报告及开题答辩:2022年12月30日前。

2.完成毕业设计、撰写毕业设计报告初稿:2022年12月至2023年3月。

3.指导教师中期检查:2023年3月,具体时间以学校安排为准。

4.根据中期检查意见继续完善毕业设计、毕业设计报告:2023年3月至2023年4月。

5.毕业设计报告查重:2023年4月,具体时间以学校安排为准。

6.答辩及成绩返回:2023年5月30日前。

四、主要参考文献

[1] 肖云鹏,戴天骥,吴欣虹等.以招聘就业大数据为基础反馈教学的“校企学”服务模式思考[J].当代教育实践与教学研究,2018(05):41+164.

[2] 叶惠仙,游金水。 Python语言在大数据处理中的应用[J]. 网络安全技术与应用,2021,(05):51-54.

[3] 陈为,沈泽潜,陶煜波 《数据可视化》 电子工业出版社 2013

[4] 陈慧,郝锦亨,袁志涛,罗佳伟,陈胤熹,郑少鹏,黎佩瑜,吕咏锶,梁世濠,赖林浩,曹诗林。 利用python/RGB色彩数据分析平台快速测定还原糖浓度[J]. 现代食品科技,:1-6.

[5] 范洁。 基于Python的网络流量特征统计分析与可视化[J]. 信息技术与信息化,2021,(04):49-51.

[6] 阙金煌。 基于Anaconda环境下的Python数据分析及可视化[J]. 信息技术与信息化,2021,(04):215-218.

[7] 黄岩。 基于Python的计算机软件应用技术探究[J]. 电脑编程技巧与维护,2021,(04):37-39.

[8] 何一林,赵高锦,路志利,董晟,王金国。 Python技术预制T梁混凝土表面气泡快速图像检测[J]. 云南水力发电,2021,37(04):12-14.

[9] 党康宁,苏晨辉,肖瑜,张静宜。 基于ABAQUS-Python无限元的动力人工边界研究[J]. 广东水利水电,2021,(04):6-10.

[10] 梁伟,贾名先,苑宁萍。 基于Python的大数据技术对线上教学情况分析与研究[J]. 电脑知识与技术,2021,17(11):111-112.

[11] 高键,季禹伶。 基于Python的数据挖掘技术在创业担保贷款中的应用[J]. 电子制作,2021,(08):51-53.

[12] 毛遂,毛红霞。 基于51job网站招聘信息的爬取与分析--以Python技术岗位为例[J]. 网络安全技术与应用,2021,(04):47-49.

[13] 彭敦诚.基于Python机器学习的大气环境下材料失效数据分析[D].机械科学研究总院,2021.

[14] 杨军,张岳,刘燕峰。 基于Python语言的数据挖掘课程的建设与研究[J]. 科技风,2021,(14):80-82.

[15] 关阳.基于python数据可视化的桂林旅游形象感知中外差异分析[D].广西大学,2020.

[16] 房瑾堂.基于网络爬虫的在线教育平台设计与实现[D].北京交通大学,2017.

基于Python的招聘网站信息爬取-计算机毕业设计源码+LW文档
基于Python的招聘网站信息爬取-计算机毕业设计源码+LW文档
基于Python的招聘网站信息爬取-计算机毕业设计源码+LW文档
基于Python的招聘网站信息爬取-计算机毕业设计源码+LW文档