天天看點

python下載下傳百度圖檔_Python抓取百度圖檔

從百度上采集内容的時候,如果能夠附上一張圖檔,将是非常不錯的。圖文并茂,比單調的文字,無論從排名還是使用者體驗來講,都會好一些。

下面跟大家分享一段python代碼,能夠根據關鍵字,采集wap.baidu.com上的第一張圖檔。

# -*- coding: utf-8 -*-

from urllib import FancyURLopener

import urllib,urllib2

import time

import os

import sys

from BeautifulSoup import BeautifulSoup

def download(link):

try:

data = urllib.urlopen(link).read()

except Exception,e:

return False

file_name = str(int(time.time()))+'.jpg'

file_path = os.path.join("images/",file_name)

image = open(file_path,'wb')

try:

image.write(data)

except Exception,e:

return False

image.close()

return True

keyword = 'SEO'

URL="http://image.baidu.com/i?tn=wisemiddetail&ie=utf8&word=%s&fmpage=detail&pn=2&size=mid&pos=next" % keyword

print URL

opener = urllib.FancyURLopener({})

opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)')]

f = opener.open(URL)

htmlstr = f.read()

soup = BeautifulSoup(htmlstr,fromEncoding="GBK")

titleinfo = soup.findAll('div',{'class':'ct'})

for k in titleinfo:

urlcache = k('img')[0]['src']

print urlcache

print download(urlcache)

隻是實作了最基本的根據關鍵字下載下傳百度第一張圖檔的功能,結合采集百度網頁内容的代碼,能夠實作圖文并茂的采集。如果加入循環功能,就可以根據關鍵字清單,實作批量的采集圖文并茂的頁面。наращивание костной ткани при имплантации отзывыдля винтовых