Python爬蟲學習（1）

2023-08-07 18:47:19

為了完成畢業設計，從Python零基礎開始學習爬蟲技術。

1.Requests庫

功能：用于網頁請求

網頁請求方式：GET方法（常用）與POST方法

使用GET方式抓取網頁源碼資料：

import requests        				#導入requests包
url = 'http://www.baidu.com/'		#将目标網頁指派給一個變量
strhtml = requests.get(url)        	#調用requests庫的Get方法擷取網頁資料，并将其指派給變量
print(strhtml.text)					#列印網頁的文本資料

2.BeautifulSoup庫

功能：從網頁中抓取資料

常見方法：BeautifulSoup()、soup.select()、soup.prettify()等

簡單示例：

import requests        							#導入requests包
from bs4 import    BeautifulSoup				#導入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器進行解析
print(soup)										#列印結果

2.1 BeautifulSoup()——解析文檔

Beautiful Soup 選擇最合适的解析器來解析文檔，解析後便将複雜的 HTML 文檔轉換成樹形結構，并且每個節點都是 Python 對象。

此處指定 lxml 解析器進行解析，将解析後的文檔存儲到建立的變量 soup 中。

Python爬蟲學習（1）

1.Requests庫

2.BeautifulSoup庫

2.1 BeautifulSoup()——解析文檔

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

JVM記憶體管理、直接記憶體和垃圾回收

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入