天天看點

基于Python的招聘網站資訊爬取-計算機畢業設計源碼+LW文檔

作者:計算機畢業設計老師

選題背景

随着社會經濟的快速發展,人們的生活水準得到了顯著提高,但随之而來的社會問題也越來越多。其中最為顯著的就是就業問題。為此,招聘資訊的展示也變得越來越為重要。人們擷取資訊的最重要來源也由報紙、電視轉變為了網際網路。網際網路的廣泛應用使網絡的資料量呈指數增長,讓人們得到了更新、更完整的海量資訊的同時,也使得人們在提取自己最想要的資訊,過濾掉對自己無用的資訊時變得不那麼容易,對于應聘者也是如此。由于招聘網站的日益流行,也使得應聘網站成為了應聘者找工作的主要平台。在面對着大量的招聘資訊時,就業者不能一目了然的擷取自己想要的招聘資訊,是以我們需要對海量的招聘資料進行處理,做出一種招聘資訊的分析系統。招聘網站能使招聘者随時随地了解到招聘資訊,同時提高企業招聘的速度。但是面對着大量的招聘資訊,應聘者難以在很快的時間内找到适合自己的崗位,做出适合自己選擇,也不能根據這些資訊直覺的看到應聘者比較關心的薪資狀況分布,企業的主要招聘城市,公司福利和所要求的學曆與經驗等方面。是以,當下需要一個能夠把招聘資訊整合到一起并将資訊可視化顯示的系統,這樣使用者就可以通過該平台來進行檢視招聘資訊的薪資分布,企業福利,所在城市等,進而使求職者可以更快找到心儀的工作。

研究現狀

國内研究現狀:

近幾年,随着國内資訊技術的飛速發展,大陸網絡招聘産業也發生了天翻覆地的變化,湧現出了大量的線上招聘網站,同時線上招聘的市場規模也在不斷地擴大。根據資料分析統計,2017-2018年,中國的網絡招聘市場規模各季度同比增速都保持在20%以上,到2019年網絡招聘市場的使用者數量已經超過了2億,在第一季度它的市場規模就超過了25億元。并且随着資料科學的興起,資料挖掘和分析逐漸成為熱門研究領域,關于網絡招聘文本資訊中蘊藏的價值開始顯現,許多研究者開始對這一領域進行探索研究,提出以就業指導中心網站資料為基礎,從招聘資訊中擷取各個學科建設和發展的建議,提高企業在進行校園招聘時的精準度,同時也能提高應屆生的就業率,實作學校、企業和學生三方的共赢。[1]

國外研究現狀:

目前,在美國等一些國家,通過網絡進行招聘求職的形式深入人心[2],已經成為廣大畢業生和社會人員進行求職就業的主要方式。而著名的跨國科技公司微軟更是資訊化管理的領航者,他們在進行網絡招聘時,不僅對外釋出招聘資訊,同時也針對自己公司内部的員工。當有職位的招聘需求時,微軟公司将統一釋出在網上,不管是微軟公司内部的員工還是外部人員都可以進行職位的申請,并且還支援内部員工跨國的職位申請。對于國内的網絡招聘來說,主要是集中在一些發展比較好的一、二線城市,還有一部分地區網絡求職的比例相對較低。

國内外招聘網站的不足之處在于此類招聘網站的崗位資訊并不全面,很多實用崗位并未爬取到,而且也存在展示的崗位是虛假崗位的問題。

選題意義

對于即将畢業找工作的應屆生和社會擇業人員來說,上網快速找到合适的工作,無疑是急需的。招聘網站資料可視化項目從繁雜的招聘資訊中提取出潛在的、有價值的資料,并以圖形的形式進行直覺化展示,将使用者從一堆雜亂無章的資料裡面解放出來[3]。通過該系統使用者能夠更加高效的了解和分析招聘資料資訊,快速擷取自身所需要的資訊使得招聘資訊能夠更加明确、有效地進行傳遞。有利于使用者明确學習方向,以及所需要掌握的工作技能和知識。

二、設計的基本思路、主要内容及其主要的研究方法等

1.基本思路

(1)根據所選題目涉及的内容,查閱相關技術資料及文獻,對“招聘網站資訊爬取和資料分析”相關流程進行了解分析,明确該項目應具有的特色和功能情況,以及按照實際情況進行更多形式的探索與研究。

(2)确定要爬取的招聘網站,以找出合适的資料。

(3)确定整體架構的技術選取。

(4)使用Request爬蟲技術爬取資料,并将爬取的資料進行資料清洗及資料分析。

(5)連接配接資料庫,将處理後的資料存入資料庫。

(6)編寫web網站的前端頁面。

(7)使用Flask架構将資料傳回給前端,并用ECharts對資料進行可視化展示。

(8)增加首頁推薦功能。

(8)進行前後端調試,保證整個資料之間的正常展示與互動。

(9)對設計作品進行測試并不斷完善,并最終完成具有良好的資訊展示效果的設計作品。

(10)不斷完善設計報告初稿,形成終稿畢業設計報告,完成畢業答辯。

2.主要内容

本招聘網站的爬蟲及可視化系統使用的是Python語言編寫,采用基于Flask的輕量級Web應用架構,招聘資訊的存儲資料庫采用MySQL設計,使用ECharts進行招聘資訊的資料可視化顯示。

中心思想:

首先使用Request爬取網頁資料,分析網頁,将内容進行解析後将招聘資訊寫入資料庫,連接配接資料庫,将資訊查詢後讀取并寫入字典,使用ECharts架構,将資料傳輸到前端網頁,以餅狀圖,柱狀圖,折線圖等形式展示,讓使用者直覺的看到招聘資訊的地域,薪資,待遇等分布,直覺的展示和擷取到最關心的招聘資訊。

功能概述:

爬取的所有的崗位招聘資料,可以通過學曆和職位來選擇檢視滿足條件的招聘資訊,可以選擇學曆要求、輸入職位來搜尋更加精準的職位。

可視化:

(1)薪資情況:通過選擇學曆來檢視各種崗位對于不同學曆的薪資可視化情況,以柱狀圖、餅圖的形式來展示各種職位的薪資分布、所占比例,提供給使用者在找工作是作為參考。

(2)企業情況:通過選擇職位可以來檢視這個職位的主要招聘城市,還可以大概檢視一下這個職位的公司規模情況,以及每個職位在各個主要城市所占的比例餅圖。

(3)福利情況:通過資料可視化速覽公司福利,基于詞雲進行構造,可以清晰看出所有公司最核心的福利待遇。

(4)學曆情況:可以檢視各個職位對學曆以及工作經驗的要求,以條形圖、矩形樹的形式進行可視化展示。

3.主要研究方法

本課題涉及到研究方法有文獻研究法和功能分析法。

(1)文獻研究法。

通過對不同python相關文獻進行閱讀研究,總結要點,進而全面地、正确地了解掌握招聘網站分析的方法。

(2)功能分析法。

通過功能分析法分析招聘網站的現象,總結出需要改進的地方。

三、計劃進度安排:

1.完成開題報告及開題答辯:2022年12月30日前。

2.完成畢業設計、撰寫畢業設計報告初稿:2022年12月至2023年3月。

3.指導教師中期檢查:2023年3月,具體時間以學校安排為準。

4.根據中期檢查意見繼續完善畢業設計、畢業設計報告:2023年3月至2023年4月。

5.畢業設計報告查重:2023年4月,具體時間以學校安排為準。

6.答辯及成績傳回:2023年5月30日前。

四、主要參考文獻

[1] 肖雲鵬,戴天骥,吳欣虹等.以招聘就業大資料為基礎回報教學的“校企學”服務模式思考[J].當代教育實踐與教學研究,2018(05):41+164.

[2] 葉惠仙,遊金水。 Python語言在大資料進行中的應用[J]. 網絡安全技術與應用,2021,(05):51-54.

[3] 陳為,沈澤潛,陶煜波 《資料可視化》 電子工業出版社 2013

[4] 陳慧,郝錦亨,袁志濤,羅佳偉,陳胤熹,鄭少鵬,黎佩瑜,呂詠锶,梁世濠,賴林浩,曹詩林。 利用python/RGB色彩資料分析平台快速測定還原糖濃度[J]. 現代食品科技,:1-6.

[5] 範潔。 基于Python的網絡流量特征統計分析與可視化[J]. 資訊技術與資訊化,2021,(04):49-51.

[6] 阙金煌。 基于Anaconda環境下的Python資料分析及可視化[J]. 資訊技術與資訊化,2021,(04):215-218.

[7] 黃岩。 基于Python的計算機軟體應用技術探究[J]. 電腦程式設計技巧與維護,2021,(04):37-39.

[8] 何一林,趙高錦,路志利,董晟,王金國。 Python技術預制T梁混凝土表面氣泡快速圖像檢測[J]. 雲南水力發電,2021,37(04):12-14.

[9] 黨康甯,蘇晨輝,肖瑜,張靜宜。 基于ABAQUS-Python無限元的動力人工邊界研究[J]. 廣東水利水電,2021,(04):6-10.

[10] 梁偉,賈名先,苑甯萍。 基于Python的大資料技術對線上教學情況分析與研究[J]. 電腦知識與技術,2021,17(11):111-112.

[11] 高鍵,季禹伶。 基于Python的資料挖掘技術在創業擔保貸款中的應用[J]. 電子制作,2021,(08):51-53.

[12] 毛遂,毛紅霞。 基于51job網站招聘資訊的爬取與分析--以Python技術崗位為例[J]. 網絡安全技術與應用,2021,(04):47-49.

[13] 彭敦誠.基于Python機器學習的大氣環境下材料失效資料分析[D].機械科學研究總院,2021.

[14] 楊軍,張嶽,劉燕峰。 基于Python語言的資料挖掘課程的建設與研究[J]. 科技風,2021,(14):80-82.

[15] 關陽.基于python資料可視化的桂林旅遊形象感覺中外差異分析[D].廣西大學,2020.

[16] 房瑾堂.基于網絡爬蟲的線上教育平台設計與實作[D].北京交通大學,2017.

基于Python的招聘網站資訊爬取-計算機畢業設計源碼+LW文檔
基于Python的招聘網站資訊爬取-計算機畢業設計源碼+LW文檔
基于Python的招聘網站資訊爬取-計算機畢業設計源碼+LW文檔
基于Python的招聘網站資訊爬取-計算機畢業設計源碼+LW文檔