天天看點

爬蟲綜合大作業

作業要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

一.把爬取的内容儲存取MySQL資料庫

  • import pandas as pd
  • import pymysql
  • from sqlalchemy import create_engine
  • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
  • engine = create_engine(conInfo,encoding='utf-8')
  • df = pd.DataFrame(allnews)
  • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)

二.爬蟲綜合大作業

  1. 選擇一個熱點或者你感興趣的主題。
  2. 選擇爬取的對象與範圍。
  3. 了解爬取對象的限制與限制。
  4. 爬取相應内容。
  5. 做資料分析與文本分析。
  6. 形成一篇文章,有說明、技術要點、有資料、有資料分析圖形化展示與說明、文本分析圖形化展示與說明。
  7. 文章公開釋出。

參考:

32個Python爬蟲項目

都是誰在反對996?

Python和Java薪資最高,C#最低!

給《流浪地球》評1星的都是什麼心态?

《都挺好》彈幕資料,比劇情還精彩?

爬了自己的微信好友,原來他們是這樣的人……

春節人口遷徙大資料報告!

七夕前消費趨勢資料

爬了一下天貓上的Bra購買記錄,有了一些羞羞哒的發現...

Python做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥

分析了42萬字歌詞後,終于搞清楚民謠歌手唱什麼了

十二星座的真實面目

唐朝詩人之間的關系到底是什麼樣的?

中國姓氏排行榜

三.爬蟲注意事項

1.設定合理的爬取間隔,不會給對方運維人員造成壓力,也可以防止程式被迫中止。

  • import time
  • import random
  • time.sleep(random.random()*3)

2.設定合理的user-agent,模拟成真實的浏覽器去提取内容。

  1. 首先打開你的浏覽器輸入:about:version。
  2. 使用者代理:
  3. 收集一些比較常用的浏覽器的user-agent放到清單裡面。
  4. 然後import random,使用随機擷取一個user-agent
  5. 定義請求頭字典headers={’User-Agen‘:}
  6. 發送request.get時,帶上自定義了User-Agen的headers

3.需要登入

發送request.get時,帶上自定義了Cookie的headers

headers={’User-Agen‘:  

'Cookie':    }

4.使用代理IP

通過更換IP來達到不斷高 效爬取資料的目的。

headers = {

    "User-Agent": "",

}

proxies = {

    "http": " ",

    "https": " ",

response = requests.get(url, headers=headers, proxies=proxies)

# encoding=utf-8
import requests
import time
import re
import csv
import json
from bs4 import BeautifulSoup as bs

# 擷取一頁資料
def get_one_page(offset):
    # 設定請求頭
    headers={
    'Referer':'https://movie.douban.com/top250?start=0&filter=',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://movie.douban.com/top250?start='+str(offset)+'&filter='
    try:
        time.sleep(1)
        response=requests.get(url,headers=headers)
        # 判斷相應狀态,200表示請求成功
        if response.status_code == 200:
            return response.content
    except Exception as e:
        print('出錯!')
        return None

# 解析網頁
def parse_page(offset):
    response=get_one_page(offset)
    if response:
        # print(response.decode('utf-8'))
        html=bs(response.decode('utf-8'),'html.parser')
        items=html.find_all('div',{'class':'item'})
        if items:
            for item in items:
                a=item.find('div',{'class':'hd'}).a
                s=item.find('div',{'class':'star'})
                bd=item.find('div',{'class':'bd'})
                href=a.attrs['href']
                title=a.span.get_text()
                quote=bd.find('p',{'class':'quote'}).span.get_text()
                star=s.find('span',{'class':'rating_num'}).get_text()

                conment_people=re.search(r'[0-9].*[^人評價</span>]',str(s.contents[len(s.contents)-2])).group()
                yield{
                'title':title,
                'href':href,
                'star':star,
                'quote':quote,
                'number':conment_people
                }
        else:
            print('沒有找到該節點')

# 儲存資料到csv檔案裡面
def save_csv_files(contents,i):
    with open('douban_top250.csv','a',encoding='utf-8',newline='')as f:
        # 将python中的字典轉換為json格式,并對輸出中文指定ensure_ascii=False
        csvFile=csv.writer(f)
        if i ==0:
            csvFile.writerow(['名稱','連結','星級','引言','評論人數'])
        datalist=[]
        for data in contents:
            csvList=[]
            csvList.append(data['title'])
            csvList.append(data['href'])
            csvList.append(data['star'])
            csvList.append(data['quote'])
            csvList.append(data['number'])
            datalist.append(csvList)
        csvFile.writerows(datalist)

# 程式主入口
def main(offset,i):
    save_csv_files(parse_page(offset),i)

if __name__=='__main__':
    for i in range(10):
        main(i*25,i)      

爬出來的CSV檔案如下圖所示

爬蟲綜合大作業

 爬出來的豆瓣電影評論前20,如下圖所示:

爬蟲綜合大作業

 爬出來的豆瓣電影星級前20,如下圖所示:

爬蟲綜合大作業

 爬取星級數還有評論人數較高的資料,如下圖所示:

爬蟲綜合大作業

 按評論在詞雲制作出的詞雲統計如下圖所示:

爬蟲綜合大作業