
大家好,我們來探讨如何爬取虎撲NBA官網資料,并且将資料寫入Excel中同時自動生成折線圖,主要有以下幾個步驟:
本文将分以下兩個部分進行分别講解:
在虎撲NBA官網球員頁面中進行爬蟲,擷取球員資料。
清洗整理爬取的球員資料,對其進行可視化。
項目主要涉及的Python子產品:
requests
pandas
bs4
爬蟲部分
爬蟲部分整理思路如下
觀察URL1的源代碼找到球隊名稱與對應URL2觀察URL2的源代碼找到球員對應的URL3觀察URL3源代碼找到對應球員基本資訊與比賽資料并進行篩選存儲
其實爬蟲就是在html上操作,而html的結構很簡單就隻有一個,就是一個大框讨一個小框,小框再套小框,這樣的一層層嵌套。
目标URL如下:
URL1:http://nba.hupu.com/players/
URL2(此處以湖人球隊為例):https://nba.hupu.com/players/...
URL3(此處以詹姆斯為例):https://nba.hupu.com/players/...
先引用子產品
from bs4 import BeautifulSoupimport requestsimport xlsxwriterimport os
檢視URL1源代碼,可以看到球隊名詞及其對應的URL2在span标簽中<span class>
近期有很多朋友通過私信咨詢有關Python學習問題。為便于交流,點選藍色自己加入讨論解答資源基地