采集表格内容,包括清單形式的商品評論資訊、正文中的表格等,凡是html代碼采用<table>表單形式的表格,都可以不寫代碼,通過可視化的方式完成采集。
首先,我們使用的工具是前嗅大資料的ForeSpider資料采集系統。在前嗅大資料官網下載下傳免費版(www.forenose.com),免費版就可以滿足我們抓取圖檔的需求。
下載下傳安裝後,啟動軟體。根據如下步驟,即可抓取到圖檔或圖檔的位址了。
在ForeSpider中,采集表格的功能稱之為“多值”。多值用于存儲表格的資料,将表格的不同列對應存入不同字段,表格的不同行分别存儲為資料表的多條記錄。本文以某表格為例。
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIyVGduV2QvwVe0lmdhJ3ZvwFM38CXlZHbvN3cpR2Lc1TPB10QGtWUCpEMJ9CXsxWam9CXwADNvwVZ6l2c052bm9CXUJDT1wkNhVzLcRnbvZ2LcZXUYpVd1kmYr50MZV3YyI2cKJDT29GRjBjUIF2LcRHelR3LcJzLctmch1mclRXY39TMwQzM0QTM4ETOwcDM2EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
【需要多值存儲的表格】
(一)建立表單
根據表格内容,建立一個存儲表格資料的表單。在頁籤“表單”中,建立一個表單。
【多值的表結構】
1.主鍵
采集表格時,表格的一行作為一條資料。由于整個表格屬于同一個網頁文檔,而文檔主鍵隻有一個,是以不能像采集其他内容一樣,取值類型選擇“文檔主鍵”。
表格的主鍵的變量類型,根據表格的行數長度,選擇“Integer”或者“Long”。取值類型選擇“空”。字段屬性選擇“主鍵字段”和“自動字段”(選擇主鍵字段後,軟體會自動選擇“鍵值唯一”和“索引字段”。)
【主鍵字段的配置】
2.其他字段
其他字段的變量類型選擇“string”,取值類型選擇“取所有子節點内容”。
【其他字段的配置】
(二)建立資料抽取
建立資料抽取,為其選擇表單“表格”。
【建立資料抽取和字段】
(三)識别多值
點選“預設資料抽取”節點,按Ctrl點選任意某個單元格,按Shift再次點選擴大區域範圍。
【定位表格】
點選“多值”,選區擴大到整個表格。點選“儲存”。
【儲存表格】
(四)字段取值
主鍵字段不需要配置。存儲表格内容的字段需要一一取值。
點選資料抽取的字段,為其一一配置表格不同列的資料。點選“descript”,按Ctrl點選第一列的任意單元格,點選“儲存”。
【配置descript字段】
點選“Apache”,按Ctrl點選第二列的任意單元格,點選“儲存”。
【配置Apache字段】
其他字段同理。一一配置完成後,預覽目前模闆。表格被完整的采集下來。
【預覽結果】