BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)
提取百度贴吧网页中的楼主发的图片
# -*- coding:utf-8 -
#
#
# BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)
# pip install beautifulsoup4
import urllib
from bs4 import BeautifulSoup
def get_content(url):
html = urllib.urlopen(url)
content = html.read()
html.close()
return content
def get_imgs(info):
"""
<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/sign=4a711e3af1246b607b0eb27cdbf91a35/9c019245d688d43f73ecd19b7a1ed21b0ef43b10.jpg"
size="15633" height="900" width="507">
"""
soup=BeautifulSoup(info)
#找出所有img标签--加入样式键对值 用_标识防止关键字冲突
all_img=soup.find_all('img', class_='BDE_Image')
# i = 0
# for img in all_img:
# #提取每个代码段的src的地址
# print img['src']
# #下载文件
# urllib.urlretrieve(img['src'],'F:\\data\\pachong\\pic2\\%s.jpg' % i)
# i +=1
#把所有地址返回成数组形式
return [img['src'] for img in all_img]
info=get_content("http://tieba.baidu.com/p/4364768066")
print get_imgs(info)