(一)資訊标記的三種形式
資訊标記是跟資訊一樣具有重要價值的資料結構。
1. XML
基于HTML發展來的一種通用的表達形式
2.JSON
有類型的鍵值對key : value
3. YAML
無類型的鍵值對,利用縮進表達所屬關系
(二)三種資訊标記形式的比較
(三)資訊提取的一般方法
實際應用中,經常采用融合方法,即結合兩種方法提取資訊
執行個體:
要求: 提取HTML中所有URL連接配接
思路:
- 1) 搜尋到所有< a >标簽
- 2)解析< a >标簽格式,提取href後的連結内容
import requests
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
print(link.get('href'))
(4)基于bs4庫的HTML内容查找方法
find_all,可以在soup變量中查找資訊,一共有五個參數
希望查找的标簽以清單形式作為參數
用for循環查找一系列庫
查找包含course屬性的p标簽
檢索一個字元串
簡寫形式
擴充方法,參數相同