天天看點

Python——爬蟲學習1

爬蟲了解一下

網絡爬蟲(Web crawler),是一種按照一定的規則,自動地抓取網際網路資訊的程式或者腳本。

Python的安裝

本篇教程采用Python3 來寫,是以你需要給你的電腦裝上Python3才行。注意選擇正确的版本,一般下載下傳并且安裝完成,pip也一起安裝好了。

連結:https://pan.baidu.com/s/1xxM09dmiXjTIiqABsIZxTQ 密碼:mjqc

安裝過程就不在贅言。

python插件的安裝

爬蟲用到的插件可以通過強大的pip下載下傳(一個用于下載下傳插件的程式),位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Scripts\pip.exe

用到的插件包括lxml,beautifulsoup4,requests

按住win+r,輸入cmd,安裝插件的文法為:pip install  插件名稱

運作cmd

Python——爬蟲學習1

安裝requests

輸入pip install requests

Python——爬蟲學習1

安裝beautifulsoup4

輸入pip install beautifulsoup4

Python——爬蟲學習1

安裝lxml

輸入pip install lxml

Python——爬蟲學習1

注意:pip安裝的插件的位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Lib\site-packages

正式程式設計工作

建立一個.py檔案,輸入代碼如下:

#!/usr/bin/env python3
#-*- coding:utf-8 -*-

import requests #導入requests
from bs4 import BeautifulSoup #導入bs4中的BeautifulSoup
import os #導入os

#浏覽器的請求頭(大部分網站沒有這個請求頭會報錯,請務必加上)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}
all_url = 'http://www.mzitu.com/all' #開始的URL位址

##使用requests中的get方法來擷取all_url的内容 ,headers為上面設定的請求頭,請參考requests的文檔
start_html = requests.get(all_url, headers=headers)
##列印出start_html(請注意,列印網頁内容請使用text,concent是二進制的資料,一般用于下載下傳圖檔,視訊,音頻等多媒體内容時才使用)
print(start_html.text)      

運作一下就會得到網頁的内容了,嘻嘻(*^__^*) 嘻嘻

Python——爬蟲學習1