MarkdownPad Document
BeautifulSoup
BeautifulSoup中的对象
BeautifulSoup对象——bsobj
标签Tag对象——bsObj.div.h1
NavigableString对象——标签里的文字
Comment对象——查找HTML文档的注释标签
bsObj.div.findAll("img") 会找出文档中第一个 div 标签,然后获取这个 div 后 代里所有的 img 标签列表。
for child in bsObj.find("table",{"id":"giftList"}).children: print(child) #找table的子标签
for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings: print(sibling) #找tr后面的兄弟标签
nextsiblings与previoussiblings 一组
nextsibling与previoussibling 一个
parent 找父标签
邮箱正则: [A-Za-z0-9._+]+@[A-Za-z]+.(com|org|edu|net)
获取属性
tag.attrs 得到属性字典
imgTag.attrs["src"] 获取图片标签的src属性的值
soup.findAll(lambda tag: len(tag.attrs) == 2)
本文转自 AltBoy 51CTO博客,原文链接:http://blog.51cto.com/altboy/1942172