天天看点

Python爬虫urllib笔记(四)之使用BeautifulSoup爬取百度贴吧

BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)

提取百度贴吧网页中的楼主发的图片

# -*- coding:utf-8 -
# 
# 
# BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)
# pip install beautifulsoup4

import urllib
from bs4 import BeautifulSoup

def get_content(url):
    html = urllib.urlopen(url)
    content = html.read()
    html.close()
    return content

def get_imgs(info):
	"""
	<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/sign=4a711e3af1246b607b0eb27cdbf91a35/9c019245d688d43f73ecd19b7a1ed21b0ef43b10.jpg" 
	size="15633" height="900" width="507">
	"""
	soup=BeautifulSoup(info)
	#找出所有img标签--加入样式键对值 用_标识防止关键字冲突
	all_img=soup.find_all('img', class_='BDE_Image')
	# i = 0
	# for img in all_img:
	# 	#提取每个代码段的src的地址
	# 	print img['src']
	# 	#下载文件
	# 	urllib.urlretrieve(img['src'],'F:\\data\\pachong\\pic2\\%s.jpg' % i)
	# 	i +=1
	#把所有地址返回成数组形式
	return [img['src'] for img in all_img]

info=get_content("http://tieba.baidu.com/p/4364768066")	
print get_imgs(info)