讀《Mining Data Records in Web Pages》

2023-04-05 19:09:34

這是一篇關于Data Detection的文章，是由Bing Liu、Robert Crossman、Yanhong Zhai在2003年ACM上發表的。

資訊提取一般分為兩步：Data/Object Detection 和 Attributes Labeling。當然也有和在一起的。

關于《Mining Data Records in Web Pages》這篇文章

是Data Detection方面的，基于結構的，基于結構意味着是在對 html的 document 進行操作。當然如果基于視覺的話也需要對dom進行操作；
可提取的頁面隻能是包含多個Object的list page。一般情況下，我們将包含Object的頁面分為list page 和 detail page（隻有一個Object）。list 和 detail也是一般網站的結構。
核心是string matching。其實就是采用了edit Distance作為相似度。關于edit Distance，前面轉載的文章已經提過。

這篇文章基本上可以放過了。因為其局限性。但是了解到了edit Distance還是不錯的。

old_golden_times web distance attributes object list Bing

上一篇: CentOS7中安裝配置與使用KVM（圖形化操作方式）

下一篇: Data Mining: Practical Machine Learning Tools and Techniques, Second Edition

繼續閱讀

HTML5Canvas 酷炫效果
javascript web html5 canvas
08-07
趕工心得（一）
胡謅八扯&想法工作 html 程式設計 css web
08-07
web OS —— goowy.com
扯東扯西 web os webos 網絡 yahoo google
08-07
緻意—程式員
技術人創業工作語言 web c
08-07
使用Windbg調試.Net應用程式
.NET Framework .net exception object thread 伺服器 crash
08-07
十大酷炫屌的圖像懸停特效
Web寶藏 web css3 javascript animation
08-07
前後端分離之跨域問題
javaweb 前後端分離 java web ajax
08-07
淺談---測試Native Windows Command與Native PowerShell Command哪個效率高
powershell command Windows 測試 dos list
08-07
SOFTICE 使用說明 (斷點)
list dos byte c kill 資訊
08-07
List control NM
list macros
08-07
VS2008 不在支援 Attributed ATL
attributes wizard compiler 程式設計 macros 微軟
08-07
何為全棧工程師？你是否應該成為一名全棧工程師？
javaweb 全棧工程師 web
08-07
c寫檔案
C/C++執着之路 c fp file list null output
08-07
配置網頁内容通路
Linux運維 ENGINEER web 伺服器 Linux centos
08-07
GridView終極用法(一)
ASP.net&amp;C# dataset asp string object textbox sorting
08-07
Linux裝置模型（中）之上層容器
Linux裝置驅動 Linux struct 資料結構 list buffer 平台
08-07