天天看點

手把手教你用Python爬取存儲資料,還能自動在Excel中可視化

手把手教你用Python爬取存儲資料,還能自動在Excel中可視化

大家好,我們來探讨如何爬取虎撲NBA官網資料,并且将資料寫入Excel中同時自動生成折線圖,主要有以下幾個步驟:

手把手教你用Python爬取存儲資料,還能自動在Excel中可視化

本文将分以下兩個部分進行分别講解:

在虎撲NBA官網球員頁面中進行爬蟲,擷取球員資料。

清洗整理爬取的球員資料,對其進行可視化。

項目主要涉及的Python子產品:

requests
pandas
bs4      

爬蟲部分

爬蟲部分整理思路如下

觀察URL1的源代碼找到球隊名稱與對應URL2觀察URL2的源代碼找到球員對應的URL3觀察URL3源代碼找到對應球員基本資訊與比賽資料并進行篩選存儲

其實爬蟲就是在html上操作,而html的結構很簡單就隻有一個,就是一個大框讨一個小框,小框再套小框,這樣的一層層嵌套。

目标URL如下:

URL1:http://nba.hupu.com/players/

URL2(此處以湖人球隊為例):https://nba.hupu.com/players/...

URL3(此處以詹姆斯為例):https://nba.hupu.com/players/...

先引用子產品

from bs4 import BeautifulSoupimport requestsimport xlsxwriterimport os      

檢視URL1源代碼,可以看到球隊名詞及其對應的URL2在span标簽中<span class>

近期有很多朋友通過私信咨詢有關Python學習問題。為便于交流,點選藍色自己加入讨論解答資源基地