天天看点

BeautifulSoup基础

MarkdownPad Document

BeautifulSoup

BeautifulSoup中的对象

BeautifulSoup对象——bsobj

标签Tag对象——bsObj.div.h1

NavigableString对象——标签里的文字

Comment对象——查找HTML文档的注释标签

bsObj.div.findAll("img") 会找出文档中第一个 div 标签,然后获取这个 div 后 代里所有的 img 标签列表。

for child in bsObj.find("table",{"id":"giftList"}).children: print(child)     #找table的子标签

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings: print(sibling)   #找tr后面的兄弟标签

nextsiblings与previoussiblings 一组

nextsibling与previoussibling 一个

parent  找父标签

邮箱正则:  [A-Za-z0-9._+]+@[A-Za-z]+.(com|org|edu|net)

获取属性

tag.attrs   得到属性字典

imgTag.attrs["src"]   获取图片标签的src属性的值

soup.findAll(lambda tag: len(tag.attrs) == 2)

本文转自 AltBoy 51CTO博客,原文链接:http://blog.51cto.com/altboy/1942172