天天看點

Python爬取新浪微網誌使用者資訊及微網誌内容

大資料時代,對于研究領域來說,資料已經成為必不可少的一部分。新浪微網誌作為新時代火爆的新媒體社交平台,擁有許多使用者行為及商戶資料,是以需要研究人員都想要得到新浪微網誌資料,But新浪微網誌資料量極大,擷取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關于使用Python爬蟲來爬取新浪微網誌資料的教程,但是完整的介紹以及爬取使用者所有資料資訊比較少,是以這裡分享一篇主要通過selenium包來爬取新浪微網誌使用者資料的文章。

目标

爬取新浪微網誌使用者資料,包括以下字段:id,昵稱,粉絲數,關注數,微網誌數,每一篇微網誌的内容,轉發數,評論數,點贊數,釋出時間,來源,以及是原創還是轉發。(本文以GUCCI(古馳)為例)

方法

+使用selenium模拟爬蟲

+使用BeautifulSoup解析HTML

結果展示

Python爬取新浪微網誌使用者資訊及微網誌内容

步驟分解

1.選取爬取目标網址

首先,在準備開始爬蟲之前,得想好要爬取哪個網址。新浪微網誌的網址分為網頁端和手機端兩個,大部分爬取微網誌資料都會選擇爬取手機端,因為對比起來,手機端基本上包括了所有你要的資料,并且手機端相對于PC端是輕量級的。

下面是GUCCI的手機端和PC端的網頁展示。

Python爬取新浪微網誌使用者資訊及微網誌内容

2.模拟登陸

定好爬取微網誌手機端資料之後,接下來就該模拟登陸了。

模拟登陸的網址

登陸的網頁下面的樣子

Python爬取新浪微網誌使用者資訊及微網誌内容

模拟登陸代碼

Python爬取新浪微網誌使用者資訊及微網誌内容

3.擷取使用者微網誌頁碼

在登入之後可以進入想要爬取的商戶資訊,因為每個商戶的微網誌量不一樣,是以對應的微網誌頁碼也不一樣,這裡首先将商戶的微網誌頁碼爬下來。與此同時,将那些公用資訊爬取下來,比如使用者uid,使用者名稱,微網誌數量,關注人數,粉絲數目。

Python爬取新浪微網誌使用者資訊及微網誌内容

4.根據爬取的最大頁碼,循環爬取所有資料

在得到最大頁碼之後,直接通過循環來爬取每一頁資料。抓取的資料包括,微網誌内容,轉發數量,評論數量,點贊數量,發微網誌的時間,微網誌來源,以及是原創還是轉發。

Python爬取新浪微網誌使用者資訊及微網誌内容

4.在得到所有資料之後,可以寫到csv檔案,或者excel

最後的結果顯示在上面展示啦!!!!

到這裡完整的微網誌爬蟲就解決啦!!!

原文釋出時間為: 2018-11-06

本文作者:Python資料之道

本文來自雲栖社群合作夥伴“

Python資料之道

”,了解相關資訊可以關注“

”。