本文執行個體主要是實作爬取一個網頁上的圖檔位址,具體如下。
讀取一個網頁的源代碼:
import urllib.request
def getHtml(url):
html=urllib.request.urlopen(url).read()
return html
print(getHtml(http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip))
利用正規表達式爬取一個網頁上的圖檔位址:
import re
import urllib.request
def getHtml(url):
html=urllib.request.urlopen(url).read()
return html
def getImg(html):
r=r'"thumbURL":"(http://img.+?\.jpg)"' #定義正則
imglist=re.findall(r,html)
return imglist
html=str(getHtml("http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip"))
print(getImg(html))
運作結果:
總結
以上就是本文關于Python爬蟲爬取一個網頁上的圖檔位址執行個體代碼的全部内容,希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支援!