(一)資訊标記的三種形式 資訊标記是跟資訊一樣具有重要價值的資料結構。 資訊标記與提取方法 1. XML 基于HTML發展來的一種通用的表達形式 資訊标記與提取方法 2.JSON 有類型的鍵值對key : value 資訊标記與提取方法 資訊标記與提取方法 資訊标記與提取方法 3. YAML 無類型的鍵值對,利用縮進表達所屬關系 資訊标記與提取方法 資訊标記與提取方法 (二)三種資訊标記形式的比較 資訊标記與提取方法 資訊标記與提取方法 (三)資訊提取的一般方法 資訊标記與提取方法 資訊标記與提取方法 實際應用中,經常采用融合方法,即結合兩種方法提取資訊 執行個體: 要求: 提取HTML中所有URL連接配接 思路: 1) 搜尋到所有< a >标簽 2)解析< a >标簽格式,提取href後的連結内容 import requests from bs4 import BeautifulSoup r = requests.get("http://python123.io/ws/demo.html") demo = r.text soup = BeautifulSoup(demo, "html.parser") for link in soup.find_all('a'): print(link.get('href')) (4)基于bs4庫的HTML内容查找方法 find_all,可以在soup變量中查找資訊,一共有五個參數 資訊标記與提取方法 希望查找的标簽以清單形式作為參數 資訊标記與提取方法 用for循環查找一系列庫 資訊标記與提取方法 查找包含course屬性的p标簽 資訊标記與提取方法 檢索一個字元串 資訊标記與提取方法 簡寫形式 資訊标記與提取方法 擴充方法,參數相同 資訊标記與提取方法