python bs4子產品 BeautifulSoup 學習筆記

2023-08-03 10:13:34

bs4 子產品的 BeautifulSoup 可以用來爬取html頁面的内容，配合requests庫可以寫簡單的爬蟲。

1、利用requests請求html頁面，擷取HTML頁面内容

import requests
from bs4 import BeautifulSoup


session = requests.session()

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

session.headers.update(headers)

# step 1  打開登陸頁面
url = 'http://10.10.10.10/xx'
r = session.get(url)
html = r.text

2、利用BeautifulSoup，解析HTML得到想要的資訊

soup = BeautifulSoup(html, 'html.parser')
# BeautifulSoup支援多種元素定位方式，也支援CSS定位,得到的是一個清單，清單中的元素資訊可以用get方法擷取
s1 = soup.select('#id')[0].get('value')
#S1 就是對應元素value屬性的值
print(s1)

python bs4子產品 BeautifulSoup 學習筆記

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入