https://ferventdesert.github.io/Hawk/
Hawk是一款由沙漠之鷹曆時五年個人業餘時間開發的,開源圖形化爬蟲和資料清洗工具,GitHub Star超過2k+,前幾代版本介紹如下:
Hawk3: 終于等到你: 圖形化開源爬蟲Hawk 3釋出!
Hawk2: 120項優化: 超級爬蟲Hawk 2.0重磅釋出!
Hawk1: 如何從網際網路采集海量資料?租房,二手房,薪酬...
一鍵抓取二手房的教程如下: https://www.jianshu.com/p/859c314f58c5
Hawk從2015年開源,但Hawk5則帶來了其曆史上最大的更新,解決諸多bug,提供開放的任務市場,手機app嗅探和更強大的調試系統。 是以我們直接跳過Hawk4,釋出Hawk5。
那麼Hawk5帶來哪些讓人興奮的更新呢? 大招在最後!
Hawk5對界面做了進一步的完善和微調,使用更人性化:
Hawk早期版本不穩定,使用者正在編輯任務或處理資料時,Hawk撲街了!
Hawk5能自動儲存任務,資料表,甚至目前執行的位置!一旦關閉或崩潰,不要怕!資料一條沒丢,重新開機後,還能從上次中斷繼續運作!就像斷點續傳一樣,顫抖吧筒子們!
這是另一革命性功能,由于通路網站經常會逾時或不可通路,想一次性抓取且不重不漏是非常困難的。
Hawk5支援批量補資料。當發生異常時,Hawk會将異常和上下文寫入資料表,之後即可智能重新執行,将資料不重不漏地回補回來,如下圖所示:
Hawk5中,幫助文檔獲得了極大的增強,除了豐富和細緻的線上文檔之外:
還在各個子產品下方提供圖文并茂的說明,當你不知道該按鈕的作用時,滑鼠放在該按鈕上保持3秒就有貼心提示出現!
更貼心的是,設計完任務後,一鍵即可生成手把手幫助文檔。新手按部就班即可重重制該功能!
Hawk5進一步地提供了多國語言,能友善地在中文,English或其他任何語言切換,隻要在執行目錄增加對應的語言檔案即可!
同時,Hawk的自動更新機制,能夠讓疊代更加靈活,有新版本的Hawk即可一鍵更新,媽媽再也不用擔心Hawk出現bug了!
早期的Hawk,多任務間協同比較複雜,子任務也不能徹底解決該問題。
Hawk5中提供了全局參數系統,可以在任何子產品中,使用大括号引用你已經配置的參數,并能在多個參數組間切換。
這有什麼用呢?舉個栗子,當二手房抓取時,每個城市們頁面格式和位址都不相同, 需要手工切換多個參數。使用全局參數後,切換配置組即可一鍵在不同城市間切換!
早期Hawk在配置錯誤時,一條資料都出不來,卡住的不僅是Hawk,還有使用者的心。
Hawk5提供了更加友善的調試系統,每個子產品是否正常工作,會以綠色方格提醒,一目了然。當任務的某個子產品出現異常時會及時提示。
超級拷貝,可以通過shift鍵,選擇多個子產品,在多個任務間拷貝。你甚至還能将Hawk自動嗅探出的網頁XPath結構一鍵拷貝為python代碼,極大地簡化爬蟲工程師的工作!
是否已經被網站封鎖?總共進行了多少次請求?全局統計系統能夠友善的顯示目前總的web請求數,異常數,逾時數,當錯誤數達到門檻值時,更能自動暫停所有的任務!
除此之外,新版的Hawk更是改進了UI設計,例如XPath轉換器,能夠通過關鍵字快速定位,幾次點選即可擷取真實XPath。
以前所有的Hawk使用者隻能各自為政,無法共享和溝通。
在新的Hawk中,你可以浏覽任務市場,直接加載遠端任務和浏覽資料,并友善地組合其他人的任務。像BT站一樣,作者釋出資料清洗工程後,所有的Hawk使用者就會立即受益!
以前想抓取全國二手房很複雜,且不能應對網站改版。在Hawk市場隻要輕輕點選加載任務即可,所見即所得,一鍵将資料導出到Excel。
這是Hawk本次更新的最重要的功能,它極大地改善了Hawk社會化協作,基于GitHub。由于賬号系統的限制,目前還不能在軟體中直接上傳任務(未來會提供),如果你希望向主倉庫貢獻任務,可送出git的pull request。
在AI時代,通過大量使用者使用Hawk的行為和任務市場的積累,我們能夠通過強化學習等技術,自動讓AI學出自動的資料清洗和轉換服務,讓Hawk變得更加智能。
如果你以為Hawk隻是個爬蟲,那就錯了,Hawk是個通用的流式計算用戶端。未來Hawk市場,不僅會有共享的任務,更會引入第三方插件機制,極大地擴充Hawk流式計算的版圖。
目前正在開發中的浏覽器驅動插件,能夠讓Hawk自動控制浏覽器,模拟點選,翻頁等一系列操作,你要做的隻是做一遍後導入到Hawk。通過配置資料清洗流,能夠實作自動搶票,鍵盤輸入等一系列功能。
Hawk5的手機遠端嗅探功能,能友善的抓取手機app的資料。
未來的插件能夠更友善地調用百度識圖,翻譯轉換以及各類服務存儲API,讓更多使用者能夠通過Hawk拖拽就能實作豐富的資料處理,并導出成任何格式。
我們對Hawk的理念,是開源,去中心化和社會化協作。它沒有公司去營運,沒有中心伺服器,隻依賴了免費的GitHub倉庫,使用文檔和教程都是機器自動生成的。但它也在各種艱難中一路走來,但我們對Hawk的願景是讓資料流變得更加智能,讓資料工作者變得更加地靈活友善。
感謝閱讀,如果Hawk給你提供了幫助,歡迎轉發本文給更多的朋友,并歡迎給本項目的GitHub點個star!
作者:熱情的沙漠
出處:http://www.cnblogs.com/buptzym/
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接配接,否則保留追究法律責任的權利。