Python爬蟲之抓取網絡圖檔

2023-07-02 15:07:15

1.目的

以百度圖檔首頁為例，首頁如下圖所示，網頁上有一些圖檔，我們的目的就是将這些圖檔儲存到本地。

Python爬蟲之抓取網絡圖檔

2.源碼

#coding=utf-8
#version: python 2.7
#author: Hao Chen

import urllib
import re

#step1.擷取整個頁面的資料
url="http://image.baidu.com/"
page = urllib.urlopen(url)     #打開一個url位址
html = page.read()             #讀取url上的資料

#step2.删選頁面中想要的資料
reg = r'src="(.+?\.jpg)" '        #建構正規表達式
imgre = re.compile(reg)           #把正規表達式變異成一個對象
imgList = re.findall(imgre,html)  #讀取html中包含正規表達式的資料

#直接用以下方法也行，更簡便
#imgList = re.findall('src="(.+?\.jpg)" ',html)
 
#step3.将頁面篩選的資料儲存到本地
x=0
for imgurl in imgList:
    urllib.urlretrieve(imgurl,'%s.jpg'%x)  #遠端将資料下載下傳到本地
    x+=1

Python爬蟲之抓取網絡圖檔

1.目的

2.源碼

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入