MarkdownPad Document
BeautifulSoup
BeautifulSoup中的對象
BeautifulSoup對象——bsobj
标簽Tag對象——bsObj.div.h1
NavigableString對象——标簽裡的文字
Comment對象——查找HTML文檔的注釋标簽
bsObj.div.findAll("img") 會找出文檔中第一個 div 标簽,然後擷取這個 div 後 代裡所有的 img 标簽清單。
for child in bsObj.find("table",{"id":"giftList"}).children: print(child) #找table的子标簽
for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings: print(sibling) #找tr後面的兄弟标簽
nextsiblings與previoussiblings 一組
nextsibling與previoussibling 一個
parent 找父标簽
郵箱正則: [A-Za-z0-9._+]+@[A-Za-z]+.(com|org|edu|net)
擷取屬性
tag.attrs 得到屬性字典
imgTag.attrs["src"] 擷取圖檔标簽的src屬性的值
soup.findAll(lambda tag: len(tag.attrs) == 2)
本文轉自 AltBoy 51CTO部落格,原文連結:http://blog.51cto.com/altboy/1942172