天天看點

GitHub出了一款爬蟲神器!還給出了詳細教程!

原創 菜鳥哥 菜鳥學Python 2020-12-10

點上方藍色“菜鳥學Python”,選“星标”公衆号

重磅幹貨,第一時間送到

GitHub出了一款爬蟲神器!還給出了詳細教程!

對于做爬蟲和資料分析方向的小夥伴來說,對于資料的擷取是十分重要的,尤其是關于大資料分析的資料,非常難以擷取,最近小編在浏覽Github時,就發現了一個寶庫——gopup。是由一個國内的大神開源的python庫,該庫包含了大量的大資料分析相關的資料,一起來看看吧。

GitHub出了一款爬蟲神器!還給出了詳細教程!

01.神器GoPup

項目的位址為:https://github.com/justinzm/gopup。該庫所采集的資料都是公開的資料源,作者也指出了通過該庫所擷取的資料主要目的是用于學術的研究。

該項目所涉及到的資料庫包含了微網誌指數資料、百度指數資料、頭條指數資料、新經濟公司、生活資料、疫情資料等資訊。

GitHub出了一款爬蟲神器!還給出了詳細教程!

可以看到,上述的資料中,都包含了大量的大資料分析資料,可以通過該項目庫直接擷取來使用。gopup的安裝也十分的便捷,在終端運作

pip install gopup

即可安裝。

02.如何使用

接下來,我們通過程式來看一下如何使用gopup來擷取資料。首先來看一下,百度指數的資料擷取,程式和結果如下圖所示:

GitHub出了一款爬蟲神器!還給出了詳細教程!

上圖中,可以看到,首先我們需要先在網頁端登入百度指數,然後擷取cookie資料,拿到cookie資料後,就可以調用gopup庫的baidu_search_index函數來查詢指定時間段内的指定關鍵詞的搜尋熱度。這裡我們搜尋的就是2020年10月1号到2020年12月1号的62天的“口罩”搜尋指數。傳回的是DataFrame格式的資料。那麼如何獲得cookie呢?

GitHub出了一款爬蟲神器!還給出了詳細教程!

首先打開百度指數網站并登入,然後點選F12進入開發者模式後,點選Network後,點選任意一個url的連結,翻到最下方就可以擷取到cookie資料。

接下來我們來擷取一下汽油和柴油的曆史調價資訊,程式和結果如下所示:

GitHub出了一款爬蟲神器!還給出了詳細教程!

可以看到,對于調價資訊,隻需要一行代碼即可幫助我們搞定。

gopup不僅僅可以抓取到生活資訊,還可以幫助我們抓取影視資訊方面的資料,例如實時的電影票房資料、實時電視劇播映指數、藝人商業價值等資訊,程式和結果如下圖所示:

GitHub出了一款爬蟲神器!還給出了詳細教程!

上述的程式給出的是實時電視劇播映指數資料,可以看到,最近比較火的電視劇為張魯一、段奕宏領銜主演的《大秦賦》和李易峰、金晨主演的《隐秘而偉大》。這兩部劇在豆瓣上的評分都在8分以上,可謂是收視率和口碑的雙豐收。

GitHub出了一款爬蟲神器!還給出了詳細教程!

上圖給出的是藝人商業價值的排行榜(詳細的csv可以在文末擷取),楊紫、易烊千玺和楊幂分列前三位,這份榜單是根據商業價值來進行排序,在專業熱度、關注熱度等資訊方面,不同的明星熱度排名也是不相同的。

03.詳細的文檔

作者在項目中不僅給出了安裝方式,而且還出了中文文檔(http://doc.gopup.cn/),大家可以直接到作者提供的中文文檔中進行學習,作者給出的中文文檔非常的詳盡。

GitHub出了一款爬蟲神器!還給出了詳細教程!

以百度的搜尋資料為例,我們需要重點關注的有四個點,分别是目标位址、輸入參數、輸出參數和接口示例,其中接口示例給出了程式如何調用的詳細說明,讓大家一看就明白該如何使用。

還要注意的是,影視資料擷取的程式,必須在Ubuntu環境下運作,否則js資料無法正确傳回結果。

GitHub出了一款爬蟲神器!還給出了詳細教程!

以上就是小編為大家帶來的gopup庫的介紹,大家也趕快安裝gopup,發現更多更有趣的大資料應用吧。

另外使用這個庫需要一個js更新檔,小編已經為大家準備好了!