天天看點

火車頭文章采集步驟研究--如何導入本地access資料庫

       最近一直在研究一個叫火車頭的采集軟體,現在終于有點眉目了,不過我的釋出重點是在介紹怎麼存儲到本地access資料庫上的,其他的我目前不需要也就暫時沒去研究了,那麼具體步驟是怎樣的呢,讓我們接着往下走~~~

1、為了友善管理,我們先建立測試站點,點選建立右邊的小三角-->分組,先建立一個分組,再在分組下面建立測試的任務

2、接下來開始建立采集的任務,還是點選建立右邊的小三角-->任務,打開建立任務對話框,如下圖所示:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                      圖1

這個就是任務的界面,好了,那麼這邊我就拿http://www.lawtime.cn/info/fangdichan/fcanli/這個做範例,因為首頁和内頁的規則是不一樣的哦。是以,如下

2-1、第一步的采集網址規則,這邊就是要把文章的位址先采集下來,是以我們分析了下頁面發現要先分首頁和内頁問題。。是以我們先點選添加按鈕如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                      圖2

這個就是首頁的位址,我們單獨分開先添加一條單頁位址采集規則。

2-2、然後重複上面的步驟,但是我們在添加采集位址的時候要選擇擊“批量/多頁”指令,具體如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                    圖3

好了我們已經分析好網址了,接下來就是截取文章的位址清單,,具體下面:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                      圖4

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖5

一般我們隻需要選中自動擷取,然後去檢視頁面的源代碼:找到文章清單的唯一标示符填入上面标注出來的框中就好了,然後記得點選http的請求方式:選中get方式,一般都是采用這個方式的。。如下源碼:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖6

找到唯一标示符…….

然後就是測試對不對了。。點選“測試網址采集”出現下面情況就是好了

火車頭文章采集步驟研究--如何導入本地access資料庫

                                      圖7

這樣第一步就完成了

再然後是分析文章位址了

http://www.lawtime.cn/info/fangdichan/fcanli/20110920161809.html  我這邊拿這個來分析,主要是這個也有分頁,剛好我們所要注意的都能在此展現。

界面上預設已經建立了标題、内容、作者、時間、出處5個規則,但是我們一般隻要截取标題和内容,是以第一步見選擇标題項,點選修改即可開始寫截取标題的規則了,如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖8

出現如下界面:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                       圖9

                               标題規則界面

接下來分析下該位址的标題截取,基本上來說我們都是選擇“前後截取”的方式,然後我們再來看源碼,我們看到有如下兩種方式能得到标題:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖10

火車頭文章采集步驟研究--如何導入本地access資料庫

                                   圖11

以上,如果是将“标題規則界面”裡面的title分别寫成h1的話,在資料處理我們就可以放空,但是如果我們預設是截取title,會發現末尾有帶“法律快車房地産法”幾個關鍵字,那麼怎麼去掉呢,我們就可以在資料處理進行添加其他文法來過濾了,具體如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                       圖12

這裡我們選擇内容替換選項,出現如下界面:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                      圖13

1是寫出要替換掉的文字規則,我這邊後面帶标簽(*)指後面的都是可變的,前面幾個文字不變,然後替換2為空。。點選确定,傳回任務界面,在規則測試位址欄中填入我們剛分分析的位址。。點選測試,發現已經吧後面那串關鍵字去掉啦。。如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖14

在來是分析内容規則同樣的選中内容選項點選修改,先來分析内容規則,如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                       圖15

紅色框呢,是唯一辨別文章的架構,黑色的則是唯一辨別分頁的架構,是以我們規則如下寫入界面裡面:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                     圖16

開始字元串,為什麼我加了參數(*),是為了防止文章開頭有添加其他樣式這麼寫的,我有發現其他文章不是寫了一個樣式【isc-article-bd】名……但是末尾是固定的,然後我還添加了去除标簽和關鍵字的過濾,還有最重要的黑色箭頭訓示的地方一定要勾選,否則你在怎麼寫分頁的規則,我們測試的時候永遠都隻能比對第一頁的内容,而取不到第二頁的内容

看下方,分頁規則是在左下方編寫的,我們隻要選擇自動識别,軟體就能自動識别頁碼了,非常友善

火車頭文章采集步驟研究--如何導入本地access資料庫

                                   圖17

然後在點選測試你就會發現文章已經都被分析下來拉。。。

在來點選第三步:釋出内容設定,我這邊主要講一下方式三,導入本地建立好的資料庫【access】中,這邊需慎重,你的資料庫一定不要是在其他地方有在使用,否則你怎麼測試sql語句都會提示出錯,我之前就是一直沒搞懂提示錯誤,因為我的資料庫是另外一個網站的資料庫,我正建立iis測試着了,我也沒去在意結果在這上面分析了非常久,最終還是隔天靈光一現,吧資料庫拷貝到桌面上才成功的。。【ps:最近換成win7系統,發現下載下傳最新的火車頭軟體就可以共用資料庫了~~~】好了廢話不多說,我們接着往下走,我們在點選“資料庫釋出配置管理”,出現如下界面:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                  圖18

因為我之前已經建立過一次了,是以一些必備字段都有填充了,例如測試釋出那邊我先手動定義了字段了,友善測試入庫,當然現在這些先不管,我們接着往下走,

火車頭文章采集步驟研究--如何導入本地access資料庫

                                   圖19

根據上面步驟建立插入語句,點選儲存子產品,随便給個命名就好,這邊說下,我資料庫id是自動編号,access的sql語句要達到這個目的,放空就好,而不是像其他如mysql要寫出字段,然後values是’’這樣的形式這個一定要注意,其他想時間預設now的這邊也放空了

接着選擇資料庫位址,測試入庫語句,顯示入庫成功了的話,随便起個配置名,點選儲存配置就好了。因為我之前已經建立過了,是以他顯示的是修改配置,如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                    圖20

我的測試入庫語句INSERTINTO LstNews (newsTitle ,newsContent) VALUES ('[标簽:标題]','[标簽:内容]')  

最終在我資料顯示了記錄,,如下:

火車頭文章采集步驟研究--如何導入本地access資料庫

                                   圖21

這樣整個采集的配置就完成啦,最後傳回的第三步:釋出内容設定,在方式三裡面的複選框勾選起我們剛建立的釋出規則就可以采集了

ps:還有很多很多功能有待發現,最近發現點選内容過濾,還可以吧文章字數小于設定的字數過濾掉,真心很好用的一款采集軟體

繼續閱讀