Python——爬蟲學習1

2018-05-09 23:50:00

爬蟲了解一下

網絡爬蟲（Web crawler），是一種按照一定的規則，自動地抓取網際網路資訊的程式或者腳本。

Python的安裝

本篇教程采用Python3 來寫，是以你需要給你的電腦裝上Python3才行。注意選擇正确的版本，一般下載下傳并且安裝完成，pip也一起安裝好了。

連結：https://pan.baidu.com/s/1xxM09dmiXjTIiqABsIZxTQ 密碼：mjqc

安裝過程就不在贅言。

python插件的安裝

爬蟲用到的插件可以通過強大的pip下載下傳（一個用于下載下傳插件的程式），位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Scripts\pip.exe

用到的插件包括lxml，beautifulsoup4，requests

按住win+r，輸入cmd，安裝插件的文法為：pip install 插件名稱

運作cmd

安裝requests

輸入pip install requests

安裝beautifulsoup4

輸入pip install beautifulsoup4

安裝lxml

輸入pip install lxml

注意：pip安裝的插件的位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Lib\site-packages

正式程式設計工作

建立一個.py檔案，輸入代碼如下：

#!/usr/bin/env python3
#-*- coding:utf-8 -*-

import requests #導入requests
from bs4 import BeautifulSoup #導入bs4中的BeautifulSoup
import os #導入os

#浏覽器的請求頭（大部分網站沒有這個請求頭會報錯，請務必加上）
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}
all_url = 'http://www.mzitu.com/all' #開始的URL位址

##使用requests中的get方法來擷取all_url的内容 ，headers為上面設定的請求頭，請參考requests的文檔
start_html = requests.get(all_url, headers=headers)
##列印出start_html（請注意，列印網頁内容請使用text，concent是二進制的資料，一般用于下載下傳圖檔，視訊，音頻等多媒體内容時才使用）
print(start_html.text)

運作一下就會得到網頁的内容了，嘻嘻(*^__^*) 嘻嘻

Python——爬蟲學習1

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入