利用Python進行網頁抓取

網絡爬蟲的好處

将爬蟲過程自動化，避免了手工收集資料，節省時間，還可以讓所有資料都放在一個結構化檔案中。

網頁抓取常見python 庫

● Beautiful Soup

● Requests

● Scrapy

● Selenium

網絡爬蟲的步驟

● 連接配接到網頁

● 使用BeautifulSoup解析html

● 循環通過soup對象找到元素

● 執行一些簡單的資料清理

● 将資料寫入csv

執行個體分析–利用Beautiful Soup從Fast Track上收集2018年百強公司的資料（http://www.fasttrack.co.uk/）

利用Python進行網頁抓取

使用Beautiful Soup解析網頁html

step1:導入将用于網絡爬蟲的庫

BeautifulSoup，有助于我們處理html；我們導入的下一個庫是urllib，它連接配接到網頁；最後，我們将輸出寫入csv，是以我們還需要導入csv 庫。

#導入庫

from bs4 import BeautifulSoup

import urllib.request

import csv
step2:定義正在抓取的網址

位址欄中的完整url：

urlpage = ‘http://www.fasttrack.co.uk/league-tables/tech-track-100/league-table/’
step3:建立與網頁的連接配接，使用BeautifulSoup解析html，将對象存儲在變量’soup’中：
step4:查詢網站并将HTML傳回到變量“頁面”

page = urllib.request.urlopen(urlpage)

#使用beautiful soup 解釋 HTML并存儲在變量’soup’中

soup = BeautifulSoup(page, ‘html.parser’)

列印soup變量，它應該傳回我們請求網頁的完整解析的html。

print(soup)

搜尋html元素

使用find 方法搜尋表的soup對象

table = soup.find(‘table’, attrs={‘class’: ‘tableSorter’})
然後再使用find_all 方法查找表中的每一行

results = table.find_all(‘tr’)

print(‘Number of results’, len(results))

循環周遊元素并儲存變量

定義rows表格和列名

rows = []

rows.append([‘Rank’, ‘Company Name’, ‘Webpage’, ‘Description’, ‘Location’, ‘Year end’, ‘Annual sales rise over 3 years’, ‘Sales £000s’, ‘Staff’, ‘Comments’])

print(rows)

其中，表格Webpage和Description是額外的字段
循環中查找結果：

#循環結果

for result in results:

#找到每個結果的所有列

data = result.find_all(‘td’)

#檢查列是否有資料

if len(data) == 0:

continue
處理資料并儲存到變量中。

rank = data[0].getText()

company = data[1].getText()

location = data[2].getText()

yearend = data[3].getText()

salesrise = data[4].getText()

sales = data[5].getText()

staff = data[6].getText()

comments = data[7].getText()
進一步清理以删除不需要的字元或提取更多資訊

company 有兩個字段，用find方法儲存元素（隻含公司名稱）

companyname = data[1].find(‘span’, attrs={‘class’:‘company-name’}).getText()

然後使用strip 或replace 從company 變量中删除公司名稱，這樣它隻留下描述

description = company.replace(companyname, ‘’)

sales = sales.strip(’*’).strip(’†’).replace(’,’,’’)

從每個表中抓取url并将其儲存為變量，使用與上面相同的步驟：

● 在fast track網站上找到具有公司頁面網址的元素

● 向每個公司頁面網址送出請求

● 使用Beautifulsoup解析html

● 找到感興趣的元素

第二列包含指向另一個頁面的連結，該頁面具有每個公司的概述, 每個公司頁面都有一個表格，大部分時間都包含公司網站（網址位于表格的最後一行，是以我們可以在最後一行内搜尋）

#連接配接并摘取公司網站

url = data[1].find(‘a’).get(‘href’)

page = urllib.request.urlopen(url)

#解析HTML

soup = BeautifulSoup(page, ‘html.parser’)

#查找表中的最後結果并獲得連結

try:

tableRow = soup.find(‘table’).find_all(‘tr’)[-1]

webpage = tableRow.find(‘a’).get(‘href’)

except:

webpage = None

（有可能出現公司網站未顯示的情況，使用try except條件，以防萬一找不到網址）

利用Python進行網頁抓取

寫入輸出檔案

with open(‘techtrack100.csv’,‘w’, newline=’’) as f_output:

csv_output = csv.writer(f_output)

csv_output.writerows(rows)

參考https://github.com/kaparker/tutorials/blob/master/pythonscraper/websitescrapefasttrack.py

雲栖社群合作夥伴Kerry Parker

利用Python進行網頁抓取

網絡爬蟲的好處

網頁抓取常見python 庫

網絡爬蟲的步驟

執行個體分析–利用Beautiful Soup從Fast Track上收集2018年百強公司的資料（http://www.fasttrack.co.uk/）

使用Beautiful Soup解析網頁html

搜尋html元素

循環周遊元素并儲存變量

從每個表中抓取url并将其儲存為變量，使用與上面相同的步驟：

寫入輸出檔案

繼續閱讀

Python爬蟲學習之-從零開始

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章，個人希望将這些文章抓取後每個網頁生成一個獨立的

HDU 自動刷題機 Auto AC （輕輕松松進入HDU首頁）

Python網頁爬蟲練習：requests庫&Beautiful爬取bilibili網頁資訊

網頁爬取系列（一）爬取網頁資料的一些小技巧

【爬蟲系列】【相關資源】推薦一些爬蟲相關資源

前端加密的常見場景和方法

網頁爬蟲實踐——VBA調用JS事件

六大利器輕松搞定爬蟲

什麼是反爬蟲和反反爬蟲

python網頁爬蟲通用代碼示例

計算機導論學習第一課筆記

小白如何用Java編寫爬蟲程式

Python爬蟲之抓取網絡圖檔

網頁爬蟲web（網頁爬蟲webscraper）