從百度上采集内容的時候,如果能夠附上一張圖檔,将是非常不錯的。圖文并茂,比單調的文字,無論從排名還是使用者體驗來講,都會好一些。
下面跟大家分享一段python代碼,能夠根據關鍵字,采集wap.baidu.com上的第一張圖檔。
# -*- coding: utf-8 -*-
from urllib import FancyURLopener
import urllib,urllib2
import time
import os
import sys
from BeautifulSoup import BeautifulSoup
def download(link):
try:
data = urllib.urlopen(link).read()
except Exception,e:
return False
file_name = str(int(time.time()))+'.jpg'
file_path = os.path.join("images/",file_name)
image = open(file_path,'wb')
try:
image.write(data)
except Exception,e:
return False
image.close()
return True
keyword = 'SEO'
URL="http://image.baidu.com/i?tn=wisemiddetail&ie=utf8&word=%s&fmpage=detail&pn=2&size=mid&pos=next" % keyword
print URL
opener = urllib.FancyURLopener({})
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)')]
f = opener.open(URL)
htmlstr = f.read()
soup = BeautifulSoup(htmlstr,fromEncoding="GBK")
titleinfo = soup.findAll('div',{'class':'ct'})
for k in titleinfo:
urlcache = k('img')[0]['src']
print urlcache
print download(urlcache)
隻是實作了最基本的根據關鍵字下載下傳百度第一張圖檔的功能,結合采集百度網頁内容的代碼,能夠實作圖文并茂的采集。如果加入循環功能,就可以根據關鍵字清單,實作批量的采集圖文并茂的頁面。наращивание костной ткани при имплантации отзывыдля винтовых