天天看點

爬蟲綜合大作業

該作業要求來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

一、作業要求

一.把爬取的内容儲存取MySQL資料庫

  • import pandas as pd
  • import pymysql
  • from sqlalchemy import create_engine
  • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
  • engine = create_engine(conInfo,encoding='utf-8')
  • df = pd.DataFrame(allnews)
  • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)

二.爬蟲綜合大作業

  1. 選擇一個熱點或者你感興趣的主題。
  2. 選擇爬取的對象與範圍。
  3. 了解爬取對象的限制與限制。
  4. 爬取相應内容。
  5. 做資料分析與文本分析。
  6. 形成一篇文章,有說明、技術要點、有資料、有資料分析圖形化展示與說明、文本分析圖形化展示與說明。
  7. 文章公開釋出。

參考:

32個Python爬蟲項目

都是誰在反對996?

Python和Java薪資最高,C#最低!

給《流浪地球》評1星的都是什麼心态?

《都挺好》彈幕資料,比劇情還精彩?

爬了自己的微信好友,原來他們是這樣的人……

春節人口遷徙大資料報告!

七夕前消費趨勢資料

爬了一下天貓上的Bra購買記錄,有了一些羞羞哒的發現...

Python做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥

分析了42萬字歌詞後,終于搞清楚民謠歌手唱什麼了

十二星座的真實面目

唐朝詩人之間的關系到底是什麼樣的?

中國姓氏排行榜

三.爬蟲注意事項

1.設定合理的爬取間隔,不會給對方運維人員造成壓力,也可以防止程式被迫中止。

  • import time
  • import random
  • time.sleep(random.random()*3)

2.設定合理的user-agent,模拟成真實的浏覽器去提取内容。

  1. 首先打開你的浏覽器輸入:about:version。
  2. 使用者代理:
  3. 收集一些比較常用的浏覽器的user-agent放到清單裡面。
  4. 然後import random,使用随機擷取一個user-agent
  5. 定義請求頭字典headers={’User-Agen‘:}
  6. 發送request.get時,帶上自定義了User-Agen的headers

3.需要登入

發送request.get時,帶上自定義了Cookie的headers

headers={’User-Agen‘:  

'Cookie':    }

4.使用代理IP

通過更換IP來達到不斷高 效爬取資料的目的。

headers = {

    "User-Agent": "",

}

proxies = {

    "http": " ",

    "https": " ",

response = requests.get(url, headers=headers, proxies=proxies)

四、第十周課堂檢查

二、結果

這次作業我是爬取了獵聘網的資訊。爬取的是關于軟體幾個語言的招聘資訊。例如需求該語言的職位需要什麼要求,有什麼福利,工資等等。并且儲存為csv檔案。

1.爬取JAVA

爬蟲綜合大作業

2.爬取c++

爬蟲綜合大作業

3.爬取web

爬蟲綜合大作業

三、分析

以java為例:

爬蟲綜合大作業

由這個圖可以看出大部分崗位的年薪都在15-30萬左右。

爬蟲綜合大作業

由這個圖可以清楚的看到,對于java這個語言來說,大部分招聘崗位要求都是大學以上,對于工作經驗而言,很多都是要3年以上的工作經驗。

爬蟲綜合大作業

上圖是各大公司招聘的福利關鍵字的詞雲圖,由此可以看到,很多公司都是以年底雙薪、帶薪年假、崗位晉升等福利來吸引員工。這個側面也反映了目前這個行業,能夠吸引人的福利是這些。對于員工來說薪酬是最重要的,還有員工的身體健康和發展空間。

四、部分代碼

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import time
import random
import pandas as pd

'''爬取招聘網相關資訊例如公司名、工資、待遇福利等'''
def work(url):
    newDict={}
    res = requests.get(url)
    res.encoding = ('utf-8')
    soup = BeautifulSoup(res.text, 'html.parser')
    title = soup.select('.title-info')[0].text.split()[0]
    company = soup.select('.title-info')[0].text.split()[1]
    money = soup.select('.job-item-title')[0].text.split()[0]
    welfare=soup.select('.comp-tag-list li span')
    requirement=soup.select('.job-qualifications span')
    newDict["title"]=title
    newDict["company"]=company
    newDict["money"]=money
    newDict["welfare"]=welfare
    newDict["requirement"]=requirement
    p = print(title,'\n',company,'\n', money,'\n',welfare,'\n',requirement)
    return newDict

'''擷取url清單'''
def alist(url):
    res = requests.get(listUrl)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    worksList = []
    for news in soup.select('li'):
        if len(news.select('.job-info'))>0:
            worksUrl = news.select('a')[0]['href']
            worksData=work(worksUrl)
            worksList.append(worksData)
    return worksList

allnews=[]
for i in range(0,1):
    listUrl = 'https://www.liepin.com/zhaopin/?init=-1&headckid=830b7ffde0cfe00f&dqs=050&fromSearchBtn=2&imscid=R000000035&ckid=830b7ffde0cfe00f&degradeFlag=0&key=java&siTag=k_cloHQj_hyIn0SLM9IfRg~ha394EQxjcUgWMmp6o3mbw&d_sfrom=search_sub_site&d_ckId=9466ede2f349c7ec6ded841fd0a2075d&d_curPage=0&d_pageSize=40&d_headId=9466ede2f349c7ec6ded841fd0a2075d&curPage={}'.format(i)
    allnews.extend(alist(listUrl))
    for j in range(5):
        time.sleep(random.random()*3)

newsdf=pd.DataFrame(allnews)
newsdf.to_csv('work.csv')
      

  以上是我爬取資料的主要代碼。剩下的詞雲,使用的是線上詞雲生成工具。