爬蟲了解一下
網絡爬蟲(Web crawler),是一種按照一定的規則,自動地抓取網際網路資訊的程式或者腳本。
Python的安裝
本篇教程采用Python3 來寫,是以你需要給你的電腦裝上Python3才行。注意選擇正确的版本,一般下載下傳并且安裝完成,pip也一起安裝好了。
連結:https://pan.baidu.com/s/1xxM09dmiXjTIiqABsIZxTQ 密碼:mjqc
安裝過程就不在贅言。
python插件的安裝
爬蟲用到的插件可以通過強大的pip下載下傳(一個用于下載下傳插件的程式),位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Scripts\pip.exe
用到的插件包括lxml,beautifulsoup4,requests
按住win+r,輸入cmd,安裝插件的文法為:pip install 插件名稱
運作cmd

安裝requests
輸入pip install requests
安裝beautifulsoup4
輸入pip install beautifulsoup4
安裝lxml
輸入pip install lxml
注意:pip安裝的插件的位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Lib\site-packages
正式程式設計工作
建立一個.py檔案,輸入代碼如下:
#!/usr/bin/env python3
#-*- coding:utf-8 -*-
import requests #導入requests
from bs4 import BeautifulSoup #導入bs4中的BeautifulSoup
import os #導入os
#浏覽器的請求頭(大部分網站沒有這個請求頭會報錯,請務必加上)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}
all_url = 'http://www.mzitu.com/all' #開始的URL位址
##使用requests中的get方法來擷取all_url的内容 ,headers為上面設定的請求頭,請參考requests的文檔
start_html = requests.get(all_url, headers=headers)
##列印出start_html(請注意,列印網頁内容請使用text,concent是二進制的資料,一般用于下載下傳圖檔,視訊,音頻等多媒體内容時才使用)
print(start_html.text)
運作一下就會得到網頁的内容了,嘻嘻(*^__^*) 嘻嘻