爬蟲終結者 Chrome Headless
- 簡介
- 安裝
  - Chrome Headless 配置
  - 相關庫安裝
- 實戰
  - 知乎自動化爬蟲
  - 法治線上自動翻頁爬蟲
  - 豆瓣模拟登陸爬蟲
- 核心代碼簡介
總結
相關資料

爬蟲終結者 Chrome Headless

簡介

自從Google官方釋出了Chrome浏覽器的無形态模式之後, PhantomJS 維護者 Vitaly Slobodin 随即在郵件清單上宣布辭職,可見該模式的影響力，那麼下面小編帶大家快速入門如何使用該技術實作資料抓取，可以說掌握這套技術能夠應對 90% 的網站,從此爬蟲0門檻。

安裝

Chrome Headless 配置

打開chrome浏覽器，位址欄輸入 chrome://version/ ,需要版本 59.0 以上
Mac配置如下( vim ~/.bashrc ):

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
alias chrome-canary="/Applications/Google\ Chrome\ Canary.app/Contents/MacOS/Google\ Chrome\ Canary"
alias chromium="/Applications/Chromium.app/Contents/MacOS/Chromium"
alias start_chrome_server="chrome --disable-gpu --remote-debugging-port=9222"

配置完成後記得 $ source ~/.bashrc
在終端運作 $ start_chrome_server ,可以看到如下圖所示，且有一個 新的浏覽器打開 :
蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料
ps. 如果按照上面沒有操作成功或者其他系統配置，可以看這裡

實戰

ps. 因為所有的操作都是模拟浏覽器進行操作，是以運作前必須先打開chrome headless:

$ start_chrome_server

知乎自動化爬蟲

上面源碼下載下傳好了之後，在根目錄下運作:

$ python run_zhihu.py

運作成功後可以看到知乎網站在不停的下滑重新整理，直到最後一頁。
結果:

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料

法治線上自動翻頁爬蟲

上面源碼下載下傳好了之後，在根目錄下運作:

$ python run_fazhizaixian.py

運作成功後可以看到頁面會自動翻頁且會在最後一頁停住，完全自動化。
結果:

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料

豆瓣模拟登陸爬蟲

上面源碼下載下傳好了之後，在源碼中填入自己的 豆瓣賬号 用于模拟登陸:

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料
之後在根目錄運作

$ python run_douban.py

有些時候需要驗證碼，注意控制台需要填寫 code: 這裡按照自己看到的填就行:

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料
成功的話，我們可以看到幾秒之後浏覽器自動進入豆瓣電影頁面進行自動翻頁爬蟲了。
結果:

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料

核心代碼簡介

下載下傳頁面

def download_html(self, url=None, delay=, tab=None, disable_css=False, close_tab=True):
        """
        傳回一個頁面的html
        :param tab: 頁面對象,預設為空，自己會自動建立一個
        :param url: 傳入的url
        :param delay: 下載下傳延遲
        :param disable_css: 是否禁止CSS
        :param close_tab: 每次爬完是否關閉tab
        :return:
        """
        try:
            if tab is None:
                tab = self.create_new_tab(url=url)
                self.start_tab(tab)
            tab.wait(timeout=delay)
            html = self.exec_js_cmd(tab, js_cmd.DOWNLOAD_HTML)
            if disable_css:
                self.disable_css(tab=tab)
            if html is not None:
                html = html["result"]["value"]
                if close_tab:
                    self.close_tab(tab)
                return html
        except Exception as e:
            print "download_html error:", e
            self.close_tab(tab)
            return None

該函數是整個架構的核心函數，爬蟲的 核心 也就是将浏覽器上看到的使用者資訊抓取下來，其中我這裡隻給出了一部分功能即 delay (控制下載下傳延遲), disable_css (下載下傳時候是否需要css資源), close_tab (每次抓取後是否關閉網頁)，源碼中還封裝了很多其他功能，讀者可以自行挖掘，理論上來說隻要你能在浏覽器上看到的東西基本都能抓下來，就是控制 delay 這個參數就行。

總結

該技術通常用來擷取一些 資料加密 網站的方法，對一般的 靜态網站 抓取成本較高，因為在時間上相對來說 慢 一些，大家可以試着用該架構爬下淘寶，京東等網站，小編有測試過，也是沒什麼問題的,最後希望大家給我點個 贊 或者在項目中給個 star !

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！爬蟲終結者 Chrome Headless總結相關資料

爬蟲終結者 Chrome Headless

簡介

安裝

Chrome Headless 配置

相關庫安裝

實戰

知乎自動化爬蟲

法治線上自動翻頁爬蟲

豆瓣模拟登陸爬蟲

核心代碼簡介

總結

相關資料

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入