天天看點

如何不寫代碼通過爬蟲軟體采集表格資料

        采集表格内容,包括清單形式的商品評論資訊、正文中的表格等,凡是html代碼采用<table>表單形式的表格,都可以不寫代碼,通過可視化的方式完成采集。

        首先,我們使用的工具是前嗅大資料的ForeSpider資料采集系統。在前嗅大資料官網下載下傳免費版(www.forenose.com),免費版就可以滿足我們抓取圖檔的需求。

        下載下傳安裝後,啟動軟體。根據如下步驟,即可抓取到圖檔或圖檔的位址了。

        在ForeSpider中,采集表格的功能稱之為“多值”。多值用于存儲表格的資料,将表格的不同列對應存入不同字段,表格的不同行分别存儲為資料表的多條記錄。本文以某表格為例。

如何不寫代碼通過爬蟲軟體采集表格資料

【需要多值存儲的表格】

(一)建立表單

        根據表格内容,建立一個存儲表格資料的表單。在頁籤“表單”中,建立一個表單。

如何不寫代碼通過爬蟲軟體采集表格資料

【多值的表結構】

        1.主鍵

        采集表格時,表格的一行作為一條資料。由于整個表格屬于同一個網頁文檔,而文檔主鍵隻有一個,是以不能像采集其他内容一樣,取值類型選擇“文檔主鍵”。

        表格的主鍵的變量類型,根據表格的行數長度,選擇“Integer”或者“Long”。取值類型選擇“空”。字段屬性選擇“主鍵字段”和“自動字段”(選擇主鍵字段後,軟體會自動選擇“鍵值唯一”和“索引字段”。)

如何不寫代碼通過爬蟲軟體采集表格資料

【主鍵字段的配置】

        2.其他字段

        其他字段的變量類型選擇“string”,取值類型選擇“取所有子節點内容”。

如何不寫代碼通過爬蟲軟體采集表格資料

【其他字段的配置】

(二)建立資料抽取

        建立資料抽取,為其選擇表單“表格”。

如何不寫代碼通過爬蟲軟體采集表格資料

【建立資料抽取和字段】

(三)識别多值

        點選“預設資料抽取”節點,按Ctrl點選任意某個單元格,按Shift再次點選擴大區域範圍。

如何不寫代碼通過爬蟲軟體采集表格資料

【定位表格】

        點選“多值”,選區擴大到整個表格。點選“儲存”。

如何不寫代碼通過爬蟲軟體采集表格資料

【儲存表格】

(四)字段取值

        主鍵字段不需要配置。存儲表格内容的字段需要一一取值。

        點選資料抽取的字段,為其一一配置表格不同列的資料。點選“descript”,按Ctrl點選第一列的任意單元格,點選“儲存”。

如何不寫代碼通過爬蟲軟體采集表格資料

【配置descript字段】

        點選“Apache”,按Ctrl點選第二列的任意單元格,點選“儲存”。

如何不寫代碼通過爬蟲軟體采集表格資料

【配置Apache字段】

        其他字段同理。一一配置完成後,預覽目前模闆。表格被完整的采集下來。

如何不寫代碼通過爬蟲軟體采集表格資料

【預覽結果】