天天看點

資訊标記與提取方法

(一)資訊标記的三種形式

資訊标記是跟資訊一樣具有重要價值的資料結構。

資訊标記與提取方法

1. XML

基于HTML發展來的一種通用的表達形式
資訊标記與提取方法

2.JSON

有類型的鍵值對key : value
資訊标記與提取方法
資訊标記與提取方法
資訊标記與提取方法

3. YAML

無類型的鍵值對,利用縮進表達所屬關系
資訊标記與提取方法
資訊标記與提取方法

(二)三種資訊标記形式的比較

資訊标記與提取方法
資訊标記與提取方法

(三)資訊提取的一般方法

資訊标記與提取方法
資訊标記與提取方法
實際應用中,經常采用融合方法,即結合兩種方法提取資訊

執行個體:

要求: 提取HTML中所有URL連接配接

思路:

  • 1) 搜尋到所有< a >标簽
  • 2)解析< a >标簽格式,提取href後的連結内容
import requests
from bs4 import  BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
    print(link.get('href'))
           

(4)基于bs4庫的HTML内容查找方法

find_all,可以在soup變量中查找資訊,一共有五個參數
資訊标記與提取方法
希望查找的标簽以清單形式作為參數
資訊标記與提取方法
用for循環查找一系列庫
資訊标記與提取方法
查找包含course屬性的p标簽
資訊标記與提取方法
檢索一個字元串
資訊标記與提取方法

簡寫形式

資訊标記與提取方法

擴充方法,參數相同

資訊标記與提取方法

繼續閱讀