python 爬蟲抓取前程無憂 51job-代碼

2022-11-07 10:21:06

為了結果直覺，做的簡單

網頁位址：

https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

# -*- coding:utf-8 -*-
 import requests
 from lxml import etree
 from wordcloud import WordCloud# 寫入csv
 def write_csv(name, row):
     reload(sys)
     sys.setdefaultencoding("utf-8")
 # 統計出現頻率
 def get_count(text):
     wordlist_jieba = jieba.cut(text)
 # jieba分詞
 def chinese_jieba(text):
     wordlist_jieba = jieba.cut(text)
     text_jieba = " ".join(wordlist_jieba)
     return text_jieba
 # 生成詞雲圖
 def get_ciyun(text):
     text = chinese_jieba(text)
     print(text)
     # mask_pic = numpy.array(Image.open(os.path.join(cur_path, "bit.jpg")))
     # print(text)
     # 背景顔色  詞數量  詞字型大小  字型檔案路徑（需要放到和py檔案同一個路徑下） 去掉的詞  遮罩層
     font_path = path.join(d, 'fonts', 'Symbola', 'Symbola.ttf')
     image.show()
 #擷取資料
 def get_data(url):
     result = ''
     headers={'Host':'search.51job.com','Upgrade-Insecure-Requests':'1','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)\ Chrome/63.0.3239.132 Safari/537.36'}

     return result# 主程式
 def main():
     url = 'https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
     text = get_data(url)
     #print("擷取完畢，分詞生成詞雲")
     get_ciyun(text)
     get_count(text) main()

網頁：

結果

1 抓取結果

2 詞雲圖

python 爬蟲抓取前程無憂 51job-代碼

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

403 Forbidden，You don't have permission to access / on this server.Forbidden

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

python 爬蟲 抓取 前程無憂 51job-代碼

繼續閱讀

python 爬蟲抓取前程無憂 51job-代碼