天天看點

【論文簡讀】 Deep web data extraction based on visual

《Deep web data extraction based on visual information processing》

作者 J Liu 上海海事大學 2017 AIHC會議登載

引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.

簡介

一種基于卷積神經網絡(CNN)的資料區域定位方法

結合視覺資訊進行網頁的分割(作者命名為VIBS)

1、CNN 基于卷積神經網路進行區域定位

CNN網絡結構由3個階段組成,如圖所示 。第一階段設定卷積層和彙集層以學習圖像的特征。第二階段是設定展平圖層所必需的,展平圖層會将卷積圖層和合并圖層生成的特征圖轉換為一維矢量,以計算完整的連接配接圖層。除了為輸出設定最後一個完全連接配接之外,第三階段設定多個連接配接層以過濾先前層學習的特征。

【論文簡讀】 Deep web data extraction based on visual

網絡架構設計使用13級CNN,包括5個采樣層(S),6個卷積層(C)和2個完全連接配接層。

【論文簡讀】 Deep web data extraction based on visual

據區域檢測的标準IOU,如果IOU  > 50%,則資料區域被視為正樣本。

【論文簡讀】 Deep web data extraction based on visual

區域定位主要步驟流程圖如下

【論文簡讀】 Deep web data extraction based on visual

2、基于視覺資訊的網頁分割方法 VIBS

【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual

3、實驗結果和分析

資料集(Lianjia、Complanet、Fangjia)

58,500個樣本資料集,其中有195種具有不同大小和不同位置的圖像樣本,包含資料區域,總共300個組。

實驗結果

【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual
【論文簡讀】 Deep web data extraction based on visual

總結

總體看下來,文章的創新意義大于實際意義吧,這麼高的精确度,感覺像是過拟合了,而且速度不可能這麼快,應該是把網頁先行儲存成圖檔了的,文章寫得很不錯,對比什麼的體系也比較完善,就是有些地方沒有講清楚,比如能否divide的判定等。