天天看點

讀《Mining Data Records in Web Pages》

這是一篇關于Data Detection的文章,是由Bing Liu、Robert Crossman、Yanhong Zhai在2003年ACM上發表的。

資訊提取一般分為兩步:Data/Object Detection 和 Attributes Labeling。當然也有和在一起的。

關于《Mining Data Records in Web Pages》這篇文章

  1. 是Data Detection方面的,基于結構的,基于結構意味着 是在對 html的 document 進行操作。當然如果基于視覺的話也需要對dom進行操作;
  2. 可提取的頁面隻能是包含多個Object的list page。一般情況下,我們将包含Object的頁面分為list page 和 detail page(隻有一個Object)。list 和 detail也是一般網站的結構。
  3. 核心是string matching。其實就是采用了edit Distance作為相似度。關于edit Distance,前面轉載的文章已經提過。

這篇文章基本上可以放過了。因為其局限性。但是了解到了edit Distance還是不錯的。