天天看點

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

1、使用少量真實資料進行測試

1、插入網址及種子

首先是測試資料,在資料庫的webpage表中插入兩條當當網書城的網址,并将mark置為0,表示未處理:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

同時在seeds表中插入兩條種子元組(馮唐,無所畏)(李誕,笑場):

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

2、第一次周遊資料庫并形成模式并查詢模式形成頁面

然後手動第一次運作代碼,可以看到形成了一個模式,并通過這個模式在id為15的資料中找到了一些元組:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

再來看此時的patterns表,已經成功插入了形成的模式:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

webpage中id為15的資料也已經被标記處理:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

通過該模式在該網頁下找到了17條資料:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

3、第二次周遊資料庫利用模式進行查詢

然後我們再手動執行一次代碼,可以看到此時因為利用已經形成的模式,又在id為16的資料中查到了57條元組(因為處理順序是id=16先處理,此時沒有比對的模式也沒有利用種子查找到事件,是以第一次循環中被略過了):

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

接下來我們就可以利用爬蟲向資料庫中插入大量的書城網址及子網址(因為沒有找到現成的合适的網站資料庫,是以該步驟需要手動操作)

2、插入大量真實資料進行運作

1、插入255個頁面和6個種子

首先通過爬蟲插入一些網站及其子網站,這裡總共爬取了共計255個頁面:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

然後插入6個元組:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

2、運作代碼形成模式,查找元組得到結果

接着運作代碼,因為耗時較長,中途離開是以電腦熄屏可能終端掉了,不過再來看資料庫中的内容,新增了6000多條資料和三個模式:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作
DIPRE算法改進後運作結果2、插入大量真實資料進行運作

以下為新增的模式(開始的模式被我删掉了),同時也可以看見我們最初放在本地伺服器上的測試用例也被找到了:

DIPRE算法改進後運作結果2、插入大量真實資料進行運作

而加上前面插入少量真實測試資料,應該是四個模式及大量查詢到的元組,而利用這三個模式(本地伺服器形成的模式不算),基本上可以查尋到一萬條以上的元組,因為運作時間可能較長,這裡就不再贅述,至此,改進後的算法還算比較成功。