天天看點

BeautifulSoup基礎

MarkdownPad Document

BeautifulSoup

BeautifulSoup中的對象

BeautifulSoup對象——bsobj

标簽Tag對象——bsObj.div.h1

NavigableString對象——标簽裡的文字

Comment對象——查找HTML文檔的注釋标簽

bsObj.div.findAll("img") 會找出文檔中第一個 div 标簽,然後擷取這個 div 後 代裡所有的 img 标簽清單。

for child in bsObj.find("table",{"id":"giftList"}).children: print(child)     #找table的子标簽

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings: print(sibling)   #找tr後面的兄弟标簽

nextsiblings與previoussiblings 一組

nextsibling與previoussibling 一個

parent  找父标簽

郵箱正則:  [A-Za-z0-9._+]+@[A-Za-z]+.(com|org|edu|net)

擷取屬性

tag.attrs   得到屬性字典

imgTag.attrs["src"]   擷取圖檔标簽的src屬性的值

soup.findAll(lambda tag: len(tag.attrs) == 2)

本文轉自 AltBoy 51CTO部落格,原文連結:http://blog.51cto.com/altboy/1942172