提取的資料還不能直接拿來用?檔案還沒有被下載下傳?格式等都還不符合要求?别着急,網頁抓取工具火車采集器自有應對方案——資料處理。
圖檔1.png
網頁抓取工具的資料處理功能包括三個部分,分别是内容處理、檔案下載下傳、内容過濾。下面依次給大家介紹:
1、内容處理:對從内容頁面提取的資料進行替換、标簽過濾、分詞等進一步處理,我們可以同時添加多個操作,但這裡需要注意的是,有多個操作時是按照從上到下的順序來執行,也就是說,上個步驟的結果會作為下個步驟的參數。
下面來逐個介紹一下:
①提取内容為空:如果通過前面的規則無法準确提取或提取到的内容為空,則選擇此項,此項應用後會使用正則比對從原始頁面中再次提取一次。
②内容替換/排除:将采集到的内容進行字元串替換,如需排除,則替換為空字元串即可,功能很靈活。如下圖,可直接對内容進行替換,也可對字元串進行參數替換等(差別于工具欄中的同義詞替換)。
⑦智能提取:包括提取第一張圖檔、智能提取時間、智能提取郵箱、智能提取手機号碼、智能提取電話号碼。
⑧進階功能:包括自動摘要、自動分詞、自動分類、http請求、字元編碼轉換、同義詞替換、空内容預設值、内容加前字尾、随機插入、運作c#代碼、批量内容替換,統計标簽字元串長度等一系列功能。
⑨補全單網址:将目前内容作為一個網址進行補全。
2、檔案下載下傳:可以自動探測并下載下傳檔案,可設定下載下傳路徑和檔案名樣式。
注意:檔案下載下傳中所指下載下傳圖檔是源代碼裡有标準樣式
标簽的圖檔位址。
①将相對位址補全為絕對位址:勾選後會把标簽采集到的相對位址補全為絕對位址。
②下載下傳圖檔:勾選後源代碼裡的含标準樣式
的代碼圖檔将被下載下傳。
③探測檔案真實位址但不下載下傳:有時候采集到的是附件下載下傳位址,而非真實的下載下傳位址,點選後會有跳轉。這種情況下勾選此項會将真實位址采集出來,但是隻是得到下載下傳位址并不下載下傳。
④探測檔案并下載下傳:勾選後可以把采集到的任何格式的檔案附件下載下傳下來。
3、内容過濾:對于一些不符合條件的記錄,可以通過設定内容過濾來删除或标記為未采。内容過濾有以下幾個處理方法:
①内容不得包含和内容必須包含:可以設定多個詞,支援選擇所有條件都必須滿足或滿足其中一個條件即可。
②采集結果不得為空:該功能可以讓某個字段不出現空内容。
③采集結果不得重複:該功能可以讓某個字段不出現重複内容。設定此項前請確定沒有采集過資料,或者需先清空采集資料。
④當内容長度小于(大于,等于,不等于)n時過濾:一個符号或一個字母或一個數字或一個漢字都計作一個。
注意:對于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設定功能裡設定直接删除此條記錄,或把此條記錄标記為未采集下次運作任務時會再次采集。
網頁抓取工具火車采集器中配備一系列資料處理的好處是,當我們需要進行的隻是一個很小的操作時,不需要再去寫插件,去生成和編譯,而是通過一步點選就可以将資料處理成我們需要的樣子了。