天天看點

網上資訊抽取技術縱覽

網上資訊抽取技術縱覽 (Information Extraction from World Wide Web-A Survey)

Line Eikvil 原著 (1999.7) 陳鴻标 譯 (2003.3)

第一章         導論

資訊抽取(Information Extraction: IE)是把文本裡包含的資訊進行結構化處理,變成

表格一樣的組織形式。輸入資訊抽取系統的是原始文本,輸出的是固定格式的資訊點。信

息點從各種各樣的文檔中被抽取出來,然後以統一的形式內建在一起。這就是資訊抽取的

主要任務。

資訊以統一的形式內建在一起的好處是友善檢查和比較。例如比較不同的招聘和商品資訊

。還有一個好處是能對資料作自動化處理。例如用資料挖掘方法發現和解釋資料模型。

資訊抽取技術并不試圖全面了解整篇文檔,隻是對文檔中包含相關資訊的部分進行分析。

至于哪些資訊是相關的,那将由系統設計時定下的領域範圍而定。

資訊抽取技術對于從大量的文檔中抽取需要的特定事實來說是非常有用的。網際網路上就存

在着這麼一個文檔庫。在網上,同一主題的資訊通常分散存放在不同網站上,表現的形式

也各不相同。若能将這些資訊收集在一起,用結構化形式儲存,那将是有益的。

由于網上的資訊載體主要是文本,是以,資訊抽取技術對于那些把網際網路當成是知識來源

的人來說是至關重要的。資訊抽取系統可以看作是把資訊從不同文檔中轉換成資料庫記錄

的系統。是以,成功的資訊抽取系統将把網際網路變成巨大的資料庫!

資訊抽取技術是近十年來發展起來的新領域,遇到許多新的挑戰。

本文首先在第二章簡要介紹資訊抽取技術,第三章介紹網頁分裝器(wrapper)的開發,第四

章介紹已經開發出來的網站資訊抽取系統,第五章介紹資訊抽取技術的應用範圍以及首批

已經進入商業運作的商用系統。

第二章          資訊抽取技術概述

資訊抽取原來的目标是從自然語言文檔中找到特定的資訊,是自然語言處理領域特别有用

的一個子領域。所開發的資訊抽取系統既能處理含有表格資訊的結構化文本,又能處理自

由式文本(如新聞報道)。IE系統中的關鍵組成部分是一系列的抽取規則或模式,其作用

是确定需要抽取的資訊[52]。網上文本資訊的大量增加導緻這方面的研究得到高度重視。

本章首先介紹資訊抽取領域的發展。第2.1.節比較了資訊抽取和資訊檢索的差別;第2.2.

節介紹IE的曆史。接下來兩節解釋評價IE系統的名額和常用的兩派技術方法。資訊抽取技

術所處理的文本類型将在第2.5.節中說明。第2.6.節描述資訊抽取技術可利用的網頁特征

第2.1.節          IR和IE

IR的目的是根使用者的查詢請求從文檔庫中找出相關的文檔。使用者必須從找到的文檔中翻閱

自己所要的資訊。

就其目的而言,IR和IE的不同可表達如下:IR從文檔庫中檢索相關的文檔,而IE是從文檔

中取出相關資訊點。這兩種技術是以是互補的。若結合起來可以為文本處理提供強大的工

具[24]。

IR和IE不單在目的上不同,而且使用的技術路線也不同。部分原因是因為其目的差異,另

外還因為它們的發展曆史不同。多數IE的研究是從以規則為基礎的計算語言學和自然語言

處理技術發源的。而IR則更多地受到資訊理論、機率理論和統計學的影響[24]。

第2.2.節          IE的曆史

自動資訊檢索已是一個成熟的學科,其曆史與文檔資料庫的曆史一樣長。但自動資訊抽取

技術則是近十年來發展起來的。有兩個因素對其發展有重要的影響:一是線上和離線文本

數量的幾何級增加,另一是“消息了解研讨會”(MUC)近十幾年來對該領域的關注和推動

IE的前身是文本了解。人工智能研究者一直緻力于建造能把握整篇文檔的精确内容的系統

。這些系統通常隻在很窄的知識領域範圍内運作良好,向其他新領域移植的性能卻很差[5

3]。

八十年代以來,美國政府一直支援MUC對資訊抽取技術進行評測。各屆MUC吸引了許多來自

不同學術機構和業界實驗室的研究者參加資訊抽取系統競賽。每個參加機關根據預定的知

識領域,開發一個資訊抽取系統,然後用該系統處理相同的文檔庫。最後用一個官方的評

分系統對結果進行打分。

研讨會的目的是探求IE系統的量化評價體系。在此之前,評價這些系統的方法沒有章法可

循,測試也通常在訓練集上進行。MUC首次進行了大規模的自然語言處理系統的評測。如何

評價資訊抽取系統由此變成重要的問題,評分标準也随之制定出來。各屆研讨會的測試主

題各式各樣,包括拉丁美洲恐怖主義活動、合資企業、微電子技術和公司管理層的人事更

疊。

過去五、六年,IE研究成果豐碩。英語和日語姓名識别的成功率達到了人類專家的水準。

通過MUC用現有的技術水準,我們已有能力建造全自動的 IE系統。在有些任務方面的性能

達到人類專家的水準[53]。不過自1993年以來,每屆最高組别的有些任務,其成績一直沒

有提高(但要記住MUC的任務一屆比一屆複雜)。一個顯著的進步是,越來越多的機構可以

完成最高組别的任務。這要歸公于技術的普及和整合。目前,建造能達到如此高水準的系

統需要大量的時間和專業人員。另外,目前大部分的研究都是圍繞書面文本,而且隻有英

語和其他幾種主要的語言。

第2.3.節          評價名額在

資訊抽取技術的評測起先采用經典的資訊檢索(IR)評價名額,即回召率(Recall)和查準率

(Precision),但稍稍改變了其定義。經修訂後的評價名額可以反映IE可能産生的過度概括

現象(Over-generation),即資料在輸入中不存在,但卻可能被系統錯誤地産生出來(Pro

duced)[24]。

就IE而言,回召率可粗略地被看成是測量被正确抽取的資訊的比例(fraction),而抽準率

用來測量抽出的資訊中有多少是正确的。計算公式如下:

P=抽出的正确資訊點數/所有抽出的資訊點數

R=抽出的正确資訊點數/所有正确的資訊點數

兩者取值在0和1之間,通常存在反比的關系,即P增大會導緻R減小,反之亦然。

評價一個系統時,應同時考慮P和R,但同時要比較兩個數值,畢竟不能做到一目了然。許

多人提出合并兩個值的辦法。其中包括F值評價方法:

 F = (b2 + 1)PR / (b2P + R)

其中 b 是一個預設值,決定對P側重還是對R側重。通常設定為1。

這樣用F一個數值就可很看出系統的好壞。

第2.4.節          IE系統設計的兩大方法

IE系統設計主要有兩大方法:一是知識工程方法(Knowledge Engineering Approach),

二是自動訓練方法(Automatic Training Approach)。

知識工程方法主要靠手工編制規則使系統能處理特定知識領域的資訊抽取問題。這種方法

要求編制規則的知識工程師對該知識領域有深入的了解。這樣的人才有時找不到,且開發

的過程可能非常耗時耗力。

自動訓練方法不一定需要如此專業的知識工程師。系統主要通過學習已經标記好的語料庫

擷取規則。任何對該知識領域比較熟悉的人都可以根據事先約定的規範标記語料庫。經訓

練後的系統能處理沒有見過的新文本。這種方法要比知識工程方法快,但需要足夠數量的

訓練資料,才能保證其處理品質。

第2.5.節          自由式、結構化和半結構化文本

自由式文本:資訊抽取最初的目的是開發實用系統,從自由文本中析取有限的主要資訊。

例如,從報道恐怖襲擊活動的新聞中析取襲擊者、所屬組織、地點、受害者等資訊;又如

,從醫藥研究報告的摘要中提取新産品、制造商、專利等主要資訊點。  

處理自由文本的IE系統通常使用自然語言處理技巧,其抽取規則主要建立在詞或詞類間句

法關系的基礎上。需要經過的處理步驟包括:句法分析、語義标注、專有對象的識别(如

人物、公司)和抽取規則。規則可由人工編制,也可從人工标注的語料庫中自動學習獲得

自由文本資訊點抽取技術的現有水準不可與人的能力同日而語,但還是有用的,不管其抽

取規則是人工編制的還是通過機器學習的[52]。雖然自然語言了解是漫長的期待,但是,

資訊抽取技術确實可行,因為這項技術對其需要搜尋的模式類型有很強的限定,而這種限

定是有根有據的。

結構化文本:此種文本是一種資料庫裡的文本資訊,或者是根據事先規定的嚴格格式生成

的文本。從這樣的文本中抽取資訊是非常容易的,準确度也高,通過描述其格式即可達到

目的。所用的技巧因而相對簡單。

半結構化文本:這是一種界于自由文本和結構化文本之間的資料,通常缺少文法,象電報

封包,也沒有嚴格的格式。用自然語言處理技巧對這樣的文本并不一定有效,因為這種文

本通常連完整的句子都沒有。是以,對于半結構化文本不能使用傳統的IE技巧,同時,用

來處理結構化文本的簡單的規則處理方法也不能奏效。

在半結構化文本中确實存在一些結構化的資訊,但是,抽取模式通常依賴字元和象html标

記那樣的分隔标志。句法和語義資訊的作用則非常有限。

第2.6.節          網頁

網際網路提供了一個巨大的資訊源。這種資訊源往往是半結構化的,雖然中間夾雜着結構化

和自由文本。網上的資訊還是動态的,包含超連結,以不同的形式出現,而且跨網站和平

台,全網共享。是以,網際網路是一個特殊的挑戰,一直推動着從結構化和半結構化文本中

抽取資訊的研究向前邁進。

有些研究者把所有網頁都歸入半結構化文本,但Hsu[31]對網頁類型做了頗有用的定義:若

能通過識别分隔符或資訊點順序等固定的格式資訊即可把“屬性-值”正确抽取出來,那麼

,該網頁是結構化的。半結構化的網頁則可能包含缺失的屬性,或一個屬性有多個值,或

一個屬性有多個變體等例外的情況。若需要用語言學知識才能正确抽取屬性,則該網頁是

非結構化的。

網頁的結構化程度總是取決于使用者想要抽取的屬性是什麼。通常,機器産生的網頁是非常

結構化的,手工編寫的則結構化程度差些,當然有很多例外。

傳統的NLP技巧對抽取半結構化文本的資訊并不是很有用,因其缺少規範的文法結構,而且

,NLP方法的處理速度通常比較慢,這對于網上海量資訊來說是一個大問題。

網上大部分内容都以屬性清單的形式呈現,例如很多可搜尋的網頁索引。這種外觀上的規

律性可被利用來抽取資訊,避免使用複雜的語言學知識。

網頁上的組織結構和超連結特性是需要認真考慮的重要因素。例如,可能需要打開連結的

内容才能找到你想要的資訊。網頁的組織結構不同,抽取規則也不同。

網上資料庫查詢的結果通常是一系列的包含超級連結的網頁。文獻[14]把這類網頁分成三

類:一層一頁,即一個頁面即包含了所有的查詢結果;一層多頁,即需要調出多個連結才

能獲得所有的結果;兩層頁面,即第一層是清單式條目連結,點選連結後才能看到詳細資

料。

第2.7.節          小結

IE領域是近十年來新發展起來的研究領域,一是由于“消息了解研讨會”(MUC)的推動,二

是由于網上内容的大量增加。

IE對自由文本和結構化文本都能處理。NLP技巧通常用于自由文本,對結構化和半結構化文

本并不是太适合。相反,基于分隔符和字元的方法更能奏效。

網際網路是包含大量半結構化文本的資訊源。網頁與傳統的文本相比,有許多特點:量大,

常更新,變化多,頁面的一大半包含結構化的文字塊,還可能有超連結。是以,網頁為信

息抽取研究帶來新的挑戰。

第三章  分裝器生成

第3.1.節                分裝器

第3.2.節                從IE發展成WG  

第3.3.節                分裝器生成

第3.4.節                分裝器的歸納學習

第3.5.節                小結  

各網站的資訊内容互相獨立,要收集起來有困難。資訊抽取技術就是沖着解決此困難而來

的。

網際網路上還存在一個被稱為“暗藏網”(the hidden web),即那些網上資料庫系統。文

獻[37]估計網際網路上80%的内容存在于這種看不見的網際網路中。搜尋引擎的“網絡爬蟲”抓

不到這些網頁。這就意味着需要一種獨立的工具從這些網頁中收集資料。

從網站中抽取資訊的工作通常由一種叫做“分裝器”(Wrapper,也譯“包裝器”)的程式

完成。以下3.1.和3.2.節将介紹分裝器的概念及分其生成(Wrapper Generation, WG)研

究的曆史。第3.3.節總結了構造分裝器的不同方法。手工制造分裝器的工作繁重,是以,

自動生成的研究變得非常重要。機器學習的方法非常誘人,第3.4.節介紹了歸納式學習的

相關技巧。

第3.1.節                分裝器

分裝器是一個程式,用于從特定的資訊源中抽取相關内容,并以特定形式加以表示。在數

據庫環境下,分裝器是軟體的組成部分,負責把資料和查詢請求從一種模式轉換成另外一

種模式。在網際網路環境下,分裝器的目的是把網頁中儲存的資訊用結構化的形式儲存起來

,以友善進一步的處理。

網際網路分裝器可接受針對特定資訊源的查詢請求,并從該資訊源中找出相關的網頁,然後

把需要的資訊提取出來傳回給使用者。它由一系列的抽取規則以及應用這些規則的計算機程

序代碼組成。通常,一個分裝器隻能處理一種特定的資訊源。從幾個不同資訊源中抽取信

息,需要一系列的分裝器程式庫。分裝器的運作速度應該很快,因為它們要線上處理使用者

的提問。它還要能應付網絡經常變化、運作欠穩定的特點。比如,網絡連接配接失敗、文檔格

式混亂、格式變化等。

建造針對網頁的分裝器主要有兩個好處:一是提高了從某一特定資訊源擷取相關資訊的能

力,二是能把不同資訊源的資訊整合到資料庫中,用通用查詢語言即可查找資訊。

第3.2.節                從IE發展成WG

人們需要能從不同網頁資源抽取并整合資料的工具。這種需求造就了分裝器生成研究領域

的發展。分裝器生成(WG)領域獨立于傳統的IE領域。典型的WG應用系統能從網上資料庫

傳回的查詢結果網頁中抽取資料。這些網頁構成一個被WG業内人稱之為“半結構化”的信

息源。為了能把這些網頁的資料整合在一起,必須把相關的資訊從這些網頁中抽取出來。

是以,分裝器實質上是針對某一特定資訊源的IE應用系統。

傳統的IE系統采用基于句法和語義條件相結合的抽取模式。如前所述,對于半結構化資訊

源,基于語言知識的模式并不是很管用。典型的WG系統生成的是基于分隔符的抽取模式。

由于這類網頁均是在一個統一的模闆上即時生成的,是以,隻要學習了幾個樣本網頁後,

系統即能識别分隔符特征串,構成不同的模闆區域。

從網頁中抽取資訊并不容易,要考慮許多問題,例如資訊量膨脹的問題、系統靈活性的問

題等。

第3.3.節                分裝器生成

可用人工或半自動的辦法生成分裝器。手工生成分裝器通常需要編寫專用的代碼,要花很

多時間了解文檔的結構并将其轉換成程式代碼。雖然處理半結構化的網頁要容易一些,但

并仍然還是比較煩瑣而且容易出錯。

有一些工具可幫助手工生成分裝器。使用的方法之一是利用描述性文法對網頁結構進行描

述,并且提供工具生成代碼。不過,編寫文法本身就是一項很艱巨和耗時的工作,而且需

要高水準的專家。

手工構造的IE系統不能适應處理對象所屬領域的變化。每個領域都要有相應的分裝器,維

護成本很高。對于網上資訊源來說,這些缺點尤為明顯,因為網頁數量龐大,内容和結構

繁雜,而且新的資訊源不斷增加,舊的資訊還會改變,是以,幫助生成自動抽取網頁資訊

的分裝器的技術變得非常重要。

半自動化生成分裝器的技術得益于上述分裝器生成的支援工具。一種方法是使用向導讓用

戶告訴系統那些資訊是需要抽取的。通過圖形界面,使用者即可以通過示範編寫程式,标示

出需要抽取的區域。這意味着在分裝器編碼過程中不需要專業知識,而且比手工編碼少産

生錯誤。但是,用這種方法也需要對新的站點進行重新的學習,因為這種系統不能自己學

習新的網站結構,也不能處理舊網站的結構變化。

全自動分裝器的生成利用機器學習的技巧,開發學習算法,設計出從非常簡單到相對複雜

的分裝器。即使是全自動的方法也需要人工專家的少量參與。系統必須通過學習階段,從

例子中歸納出規則。通常,這個過程是由人工指導的。

分裝器歸納法是一種自動構造分裝器的技術。主要思想是用歸納式學習方法生成抽取規則

。使用者在一系列的網頁中标記出需要抽取的資料,系統在這些例子的基礎上歸納出規則。

這些規則的精确度如何取決于例子的品質如何。如果能代表那些需要處理的網頁,那麼,

這些例子就是高品質的。

第3.4.節                分裝器的歸納學習

用于IE的機器學習方法有很多,如符号化學習法,ILP(歸納邏輯設計法),分裝器歸納法

,統計法和文法歸納法。在分裝器歸納法中,分裝器的生成被描述成一種歸納學習問題。

在最高層次,歸納學習法是從一些執行個體中完成未知目标概念的計算任務,是對現象的一種

概括。主要思路是,如果歸納出來的規則能解釋觀察到的執行個體,或者在新事例出現時能做

出準确的預測,那麼,這種歸納是成功的。在分類、知識擷取、知識發現等任務中被證明

是有用的。

歸納學習法是通過推論來完成的。推論是一種從部分到整體、從個别到一般、從個體到普

遍的推理過程。老師提供幾個執行個體給學生,學生則從中歸納出普遍适用的規則。人類的學

習是基于實驗性的觀察過程中的,對于我們來說,提供好的觀察事例要比提供明确的完整

的規則要容易。總的說來,歸納式學習法是一種建立在假設的基礎上的研究方法。

有指導的歸納式學習法可以分為兩類:零階(zero-order)和一階(first-order)學習法。兩

者的差別在于其訓練資料和所形成的理論的表達方式的不同。

零階學習法所采用的事例是事先分好類的。每個事例都由對應于固定屬性集合的特定值描

述。這類系統發展的理論以決策樹(Decision Tree)或生成規則(Production Rules)的

形式出現,把事例的類和它的屬性值聯系起來。不幸的是,決策樹的學習系統缺少表達能

力,因為它們建立在命題邏輯的基礎上,不能學習到對象之間的關系(如家族成員的關系

)之類的概念。從資料庫角度看,他們隻能處理“屬性-值”這種關系。  

關系型一階學習法可在帶有結構資訊的例子中進行歸納,例如一階邏輯謂詞和函數,無界

限結構體(Unbounded Structures,如清單,樹)等。尤其是ILP方法,專門研究從例子中

歸納一階邏輯形式的規則,邏輯程式設計的學習以及其他關系型知識。

ILP的研究介于機器學習和邏輯程式設計兩種傳統研究領域之間。許多其他的機器學習算法均限

定于處理有限的基于特征表達的例子和概念,而不能處理複雜的關系型和遞歸型知識。但

ILP借助一階邏輯的表達能力,可以學習關系和遞歸概念。ILP還可以學習更豐富的表達式

和比決策樹更複雜的概念,是以,已應用于解決從包含複雜結構和關系的文檔中抽取資訊

的學習中。

ILP算法采用兩種不同的歸納方法:一是自下而上(概括),另一是自上而下(具體化)。

自下而上的方法是資料驅動的。先選擇幾個例子,在此基礎上提出一個假設,使之能處理

這些例子。然後把這個假設推而廣之,使之能處理其餘例子。自上而下的方法則先從最普

遍的假設開始,通過引入反例,把假設規則不斷具體化。總的說來,自上而下算法可以歸

納出一大類的邏輯程式,但需要相對多的樣例。而自下而上算法有為數不多的例子就行了

,但隻能歸納出一小類的程式。

目前已經有了幾個實驗ILP系統,包括有名的FOIL[47]和GOLEM[39]。FOIL由Quinlan于19

89年開發,采用自上而下的算法。在一個既有正又有反的事實的訓練集中,先找出一個

隻覆寫正例而不涉及反例的邏輯子句(clause),然後把這個子句覆寫的事實從訓練集中删

除。如此直到訓練集中沒有正例為止。GOLEM(Muggleton and Feng 1990)采用貪婪覆寫

算法(Greedy Covering Algorithm)。子句的生成是自下而上的,建立在更多具體子句的

“最少概括”(least-general)的概括生成上。概括一直進行直到所有的正例都被覆寫而

無一個反例被涉及。

第3.5.節                小結

可以預計,網上結構化資訊将不斷增加。通過查詢網上資料庫所獲得的網頁也将不斷增加

。這些網頁是無法讓搜尋引擎擷取的。是以,越來越需要可以把相關資訊從這些網頁中抽

取出來的工具。

分裝器是專門從特定資訊源中抽取需要的資訊并傳回結果的程式。對于從不同資訊源中整

合資訊資料是非常有用的。由于這種需求不斷增加,分裝器生成的研究領域從傳統的IE領

域中脫穎而出。相比之下,生成分裝器所采用的技術比較少依賴句子的全面文法分析和NL

P技術。

分裝器可由程式員直接編寫,或手工指定網站結構再由程式自動生成規則和代碼。無論是

哪種情況,這個過程都是費時費力的,而且網頁的結構經常變化,新網頁層出不窮。這樣

,必須建造新的分裝器。為此,網上資訊抽取的研究轉向了半自動和自動生成分裝器的工

作上。

分裝器歸納法是用機器學習方法自動生成分裝器的方法。在歸納法中,分裝器的生成被看

成是歸納學習的問題,其任務是從一組例子中計算出一般規則,以解釋觀察到的事實。教

師提供例子,學生在例子的基礎上作出歸納,推導出規則。

歸納邏輯程式設計方法處于傳統的機器學習領域和邏輯程式設計之間,使用一階邏輯規則。得益于

一階邏輯豐富的表達能力,ILP方法可以學習關系型和嵌套概念。這是大多數基于“屬性-

值”表達方式的機器學習算法所無法達到的。ILP方法為此被應用到學習如何從複雜結構和

關系的文檔中抽取資訊。  

第四章         分裝器生成系統簡介

第4.1.節        處理結構化和半結構化網頁的系統...  

第4.1.1.節     ShopBot  

第4.1.2.節     WIEN..  

第4.1.3.節     SoftMealy.  

第4.1.4.節     STALKER.  

第4.2.節        處理半結構化和非結構化網頁的系統...  

第4.2.1.節     RAPIER.  

第4.2.2.節     SRV.  

第4.2.3.節     WHISK.  

第4.3.節        小結...  

早期從網站上抽取資訊的方法基本上是基于手工操作的。程式員認真研究網站的結構後手

工編寫代碼,開發一個分裝器程式,把網頁的邏輯特征抽取出來并把他們存入到資料庫。

TSIMMIS[13,25,28,29]系統和“斯坦福-IBM多資訊源管理系統(1995)”是比較早的幫

助建造分裝器程式的架構系統。TSIMMIS的目标是以一體化的方式擷取不同資訊源的資訊并

且保證所擷取資訊一緻性。其重點是開發支援這種包裝過程的語言和工具。

對于資料量大,結構動态變化的網站而言,需要一種更為有效的分裝器建造方法。一般說

來,資料庫領域的人把注意力放在錯綜複雜的資訊如何進行整合,分裝器則用手工建造。

另一方面,AI領域的人則把重點放在機器學習的方法如何能用在網站結構的自動學習上。

本章将重點介紹分裝器的自動或半自動的生成系統。

分裝器及其自動生成的複雜度和難易度将取決于網站結構的層次。第4 .1.節介紹的系統主

要是針對結構化程度相對好的網站。這類系統多數是源自分裝器生成領域的研究者。第4.

2.節介紹了能處理結構缺少規範化的網頁。這類系統較多地受到傳統的IE領域的影響。

第4.1.節                處理結構化和半結構化網頁的系統

本節介紹ShopBot, WIEN, SoftMealy 和STALKER系統。這類系統可以說是屬于分裝器生成

系統,專門用來從網站資料庫系統生成的網頁。采用分隔符為主的抽取規則,無需用到句

法和語義知識,局限于處理比較結構化的資料。

第4.1.1.節         ShopBot

開發者:R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。

ShopBot是比價代理系統,專門從網上賣家的網站上抽取資訊,是以,比其他系統的局限性

要大。其算法主要針對以表單形式提供查詢的頁面,而且傳回的搜尋結果是以表格形式顯

示的産品資訊頁面。從結果頁面中抽取資訊的技巧結合了啟發式搜尋、模式比對和歸納式

學習。

ShopBot的運作分兩個階段:離線學習階段和線上比價階段。在學習階段,系統分析每個購

物網站,獲得其符号化描述,然後在比價階段,利用獲得的符号化描述,從網站上抽取信

息,找到使用者指定的産品的最低價格。

在學習階段,系統利用簡單的啟發式方法找到正确的檢索表單,學習如何向該表單發送查

詢請求。學習程式還必須判定查詢結果頁面的格式。一般包括頭部、主體和尾部等三部分

。頭尾兩部分在所有的結果頁面中都是一緻的,而主體則包含了想要的産品資訊。結果頁

面的格式是通過三個步驟判定的:

第1步:擷取“找不到産品”的失敗頁面。用不存在的詞(如“xldccxx-no-product”)作

為關鍵字查詢資料庫,然後分析傳回的頁面。

第2步:找到頭尾部分。用可能存在的産品名稱去查詢資料庫,通過分析傳回的頁面找到頭

尾部分。

第3步:判定包含産品資訊的主體格式。首先用HTML标記和字串對可能的産品資訊摘要進行

定義和表示。網頁主體被切分成“邏輯行”,代表“垂直空格分隔”(vertical-space-de

limited)的文本。學習程式用邏輯行比較不同的摘要形式,找到最佳比對。這樣可以找到

産品的描述格式,但是不能歸納出資訊欄的名稱。最關鍵的價格資訊是用手工編碼的方法

擷取的。

第4.1.2.節         WIEN

開發者:N. Kushmerick (1997) [33,34]。

“分裝器歸納生成環境”(WIEN-Wrapper Induction Environment)是輔助分裝器生成的

工具,為網頁的自動分析而設計,受到ShopBot的影響。不過,Kushmerick 是第一個提出

分裝器歸納生成這一術語的。其方法不隻局限于某一領域,适用于所有包含表格資訊的結

構化文本,也不隻是用于HTML文本。

這種方法可以處理被他們稱之為具有HLRT結構的網頁:頭分隔符、左右分隔符(在每個待

抽取的事實的左右)和尾分隔符。系統尋找标記資訊點開始和結尾的統一的分隔符,以及

那些把表格資訊與其他周圍資訊分開的分隔符。符合這一規則的頁面幾乎都是搜尋資料庫

所得的結果頁面。

Kushmerick力圖盡量自動化,避免用人工标記樣例,是以開發了一系列自動标記樣例的方

法。标記算法需要輸入特定領域(domain-specific)的啟發學習規則,目标是找到待抽取

屬性的值。系統雖然需要輸入學習規則,但卻不管這些規則是如何獲得的,可以手工編制

。即使是這樣,比起标記整個網站來,其工作量要小。

系統采用歸納學習法,從查詢結果樣例中生成分裝器。歸納算法是:把标記好的網頁作為

輸入,然後搜尋由“HLRT分裝器模型”定義的分裝器空間(space of wrappers),反複嘗

試所有可能的分隔符,直到找到與标記網頁相一緻的HLRT分裝器。系統還采用基于機器學

習理論的模型來預測需要學習多少個例子,以保證所生成的分裝器的出錯幾率控制在一特

定的範圍内。

由于WIEN隻考慮與待抽取資料緊相鄰的分隔符,是以不能包裝那些資料不全或資訊項次序

不固定的網頁。系統采用的是多欄(Multi-slot)規則,這就意味着能把相關的資訊聯在

一起,而單欄規則隻能抽取孤立資料(例如,若一篇文檔包含多個姓名和位址,使用單欄

規則不能辨認出哪個位址是屬于某人的)。

第4.1.3.節        SoftMealy

開發者:C-H. Hsu (1998)[30,31]。

Kushmerick之後,有好幾個别的系統研發出來,力圖改進WIEN的分裝器歸納算法。SoftMe

aly是一個通過學習分裝器學習從半結構化網頁中抽取資訊的系統。其分裝器被稱為“非确

定有限自動機”(non-deterministic finite automata)。這種表達模式和學習算法據說

可以處理缺失值、一欄多值和變量改變(permutations)的情況。  

系統從訓練樣例中歸納上下文規則。訓練樣例提供一個有順序的事實清單以及事實間的分

隔符。歸納生成分裝器時,把一系列帶标記元組(labeled tuples)作為輸入。這些元組

提供了分隔符的位置和事實次序變化的資訊。這些資訊被歸納為上下文規則作為結果輸出

歸納生成的分裝器是一個“非确定有限自動機”。其狀态代表待抽取的事實,狀态的轉換

代表定義分隔符的上下文規則。狀态的轉換由上下文規則的比對結果來确定。分裝器通過

識别事實周圍的分隔符來抽取事實。

SoftMealy的規則允許使用通配符,而且能處理資訊缺失和次序變化。然而,為了能處理不

同次序的事實,系統需要學習其各種可能的次序。總的說來,SoftMealy的抽取模式比WIE

N規定的要更有表達能力。

第4.1.4.節        STALKER

開發者:I. Muslea, S. Minton, C. Knoblock. (1998) [42,43,44]。

STALKER采用指導學習的算法歸納抽取規則。訓練例子由使用者提供。使用者需選擇若幹樣例頁

面并把有用的資料(即所謂“EC樹”的葉子)标記出來。頁面被标記好後,系統可生成一

符号序列(the sequence of tokens),用來表示頁面的内容,還生成代表資訊點開始的

符号索引。符号系列(字、HTML标記)和通配符被作為定位标志,用于找到頁面上的資料

。分裝器歸納算法産醬油取規則并表示為簡單的标志文法(landmark-grammars)。此法可

處理文本,但不能處理連結資訊。

網頁文檔用所謂的“内嵌目錄”( Embedded Catalog)表示。那是一個樹形結構,其内部

節點或是同構的(homogeneous)資訊點清單,或是異構資訊點元組(tuples)。根節點是

整篇文檔,任一節點的内容代表其父節點内容的一個接續(subsequence)。末節點即是用

戶需要抽取的資料。  

STALKER采用線性覆寫算法(sequential covering algorithm)。首先生成線性标志自動

機(landmark automata)。這些自動機能産生盡可能多的訓練正例(positive training

 examples)。該自動機實際上是一個“非确定有限自動機”。其狀态的變化隻有在字元串

輸入為了目前狀态與下一狀态間的轉換而被接受時才發生。然後系統試圖生成新的自動機

以覆寫剩餘的例子,一直到所有的訓練例子都被覆寫為止。這時,STALKER傳回一個被稱之

為SLG(簡單标記文法)的解決方法。其每個分支都對應一個學習獲得的标記自動機。

STALKER可以包裝有任意層結構的資訊源。每個節點的抽取與其子節點獨立,是以,文檔中

資訊點的次序是沒有關系的。對于資訊點缺失或次序多變的文檔一樣能處理。這就比隻能

處理固定次序的WIEN等系統更靈活。與同樣能處理資訊點缺失或次序多變文檔的SoftMeal

y不同,STALKER無需把各種可能的次序變化都學習到。

STALKER采用的規則與WIEN的不同,是單欄的。不過由于STALKER利用EC樹把從多欄模闆中

取出的單個資訊點集在一起,是以沒有什麼缺陷。

第4.2.節                處理半結構化和非結構化網頁的系統

本節介紹RAPIER,SRV和WHISK系統。這些系統比上節介紹的要複雜一些,能處理的文本類

型要多一些。雖然如此,它們并不依賴語義和句法資訊,隻是在可能的情況下利用這些知

識,而且能發揮混合抽取模式的作用。

這些系統更接近傳統的資訊抽取方法,可以說處于IE和WG中間,因為它們的重點是開發用

機器學習方法來解決IE問題。所用的方法以歸納邏輯程式設計(inductive logic programmin

g)或關系學習(relational learning)為基礎,而且與歸納算法有關,比如FOIL算法(

SRV, WHISK采用)和GOLEM算法(RAPIER采用)。

第4.2.1.節              RAPIER

開發者:E. Califf (1997) [11,12]。

RAPIER(Robust Automated Production of Information Extraction Rules,健壯的資訊

抽取規則自動生成系統)以半結構化文本為處理對象,學習抽取規則,為整個IE過程服務

。系統需要輸入指明待抽取資訊的“文檔-充實模闆”(filled template)組對作為訓練

内容,從中獲得模式比對規則,抽取“填充子”(filler)填充模闆中的空槽。

學習算法結合了多個歸納邏輯程式設計系統所采用的技巧,能學習無界限模式。這些模式包含

了對詞的限制條件和填充子周圍的詞性。學習算法由一個從具體到一般(即自下而上)的

搜尋,從訓練中與目标槽比對的最具體的規則開始。随機從規則庫中抽取一對對規則,然

後橫向搜尋(beam search),以圖找到這兩條規則的最佳概括,采用最少概括的概括方法

(a least general generalization),增加限制條件,不斷重複後直到不再有進展為止

RAPIER的抽取規則是建立在分隔符和内容描述的基礎上的,即使用了能利用句法和語義信

息的模式所表達的規則。系統使用了一個詞性标注程式擷取句法資訊,使用了一個語義類

别詞典擷取語義資訊。标注程式以句子為輸入機關,把詞标注為名詞、動詞、形容詞等,

速度和健壯性都比完全句法分析器快和優,但給出的資訊有限。

資訊抽取規則用模闆名和格欄(slot)名索引,由三部分組成:前填充子(pre-filler)

:一個應比對目标文本之前的文本的模式(pattern);填充子:一個應比對目标文本的模

式;後填充子:一個應比對緊接目标文本之後的文本的模式。

一個模式是一串模式資訊點(pattern items),要求一個一個詞比對,或者是模式清單(

pattern lists),可比對N個詞。文本必須滿足模式規定的條件才算比對成功。可能的條

件包括文本必須是(I)一組詞,其中一個必須與文檔文本比對;(II)一組句法标記,其

中一個标記必須與文檔文本的标記比對;或者(iii)一組語義類别,文檔文本必須屬于其

中一類。

這種以目标詞組為中心設定抽取區域的方法意味着系統隻能進行單格抽取。但是,若把文

本分成超過三個區域,系統或許能進行多格抽取。

第4.2.2.節              SRV

開發者:D. Freitag (1998) [21,22,23]。

SRV(Sequence Rules with Validation,帶确認功能的次序規則)是一種自上而下、關系型

的資訊抽取算法。其輸入是一系列的網頁,上面标記了待抽取區域的執行個體(instance),

以及一系列基于字串(token)的特征。輸出是一系列的抽取規則。

SRV把資訊抽取問題看成是一種分類問題。文本中所有可能的短語(取最長者)都是執行個體。

文檔中的候選執行個體被送出到分類器。系統會給每個短語賦一個測量值,用于反映該短語作

為目标格填充子的信度。最初版本的SRV采用的分類器是一個關系型規則的學習器,使用的

歸納方法類似于FOIL的自上而下的辦法。在文獻[23] 中,他們采用了另外兩個分類器,機

械背誦學習器(rote learner)和簡單貝葉斯分類器( naive Bayes classifier),并

與原來的分類器作了比較。

SRV利用的特征分兩種:簡單特征和關系特征。字詞的長度、類型、拼寫、詞性等屬于簡單

特征。關系特征反映字詞的相鄰度。正是這一特征使SRV具有關系型的特點。

SRV的學習素材包括訓練集文檔中與最短執行個體區(field instance)一樣長(以詞的個數計

算)的字串,但不能長過最長的執行個體。抽取過程即是檢驗長度适合的字串是否與規則比對

的過程。

SRV與FOIL一樣,從學習所有正反例子開始。所謂反例是沒有被标記為執行個體區的字串。歸納

過程也是用正排除法,即當一條規則覆寫的例子全部是正例,或該規則已無法繼續具體化

時,所有與之比對的正例将被從訓練集中删除。然後重複以上過程。

SRV的規則具有較強的表達能力,且無需先進行句法分析。SRV與STALKER和RAPIER有類似之

處,能把與其他相關資訊點獨立的特定資訊點抽取出來。關系型學習器也與RAPIER的一樣

用于抽取單格資訊點。這與WIEN等抽取多格資訊的系統不一樣。

第4.2.3.節              WHISK

開發者:S. Soderland (1998) [52]。

WHISK系統能處理的文本對象很全面,從結構化程度很強的文本到網頁等半結構化文本,還

能處理新聞等純文字。處理結構化或半結構化文本時,WHISK無須事先經過句法分析,但處

理自由文本時,最好能先對文本作句法和語義标注。

系統采用指導學習算法,而且需要輸入一系列手工标注的訓練執行個體。标注和學習過程是交

織在一起的。每次循環,系統将送出一批執行個體讓使用者标注,系統則從标注的執行個體中歸納出

規則。

開始時,輸入的文本是未标注的,訓練集也是一個空集。系統會從文本中挑選一批執行個體(

即小于整個文檔的文字機關),讓使用者把需抽取的部分加上标記。怎樣的字串會被選為實

例呢?這取決于文檔的類型。對于結構化和半結構化文檔來說,系統根據HTML标記或其他

字元串表達式把文本切成多個執行個體。對自由文本,執行個體的切分将由一個句子分析器完成。

在這種情況下,一個執行個體可能是一個句子或者句子的一部分。

訓練執行個體上的标記将指導抽取規則的生成,并且檢驗規則的效果。如果規則被成功應用到

一個執行個體上,那麼該執行個體則被認為被規則“覆寫”了。如果抽取出來的詞組與執行個體上的标

記相吻合,則認為該詞組的抽取是正确的。

WHISK屬于機器學習算法家族中的覆寫學習法,與自上而下的學習分類歸納法相關。首先,

找到一個最寬泛(general)的能覆寫規則種子的規則,然後一次加一個條件,直到錯誤率

為零,或者滿足一個事先設定的标準為止。用來衡量新條件增加的标準是規則的Laplacia

n期望錯誤值。計算公式如下:(e+1)/(n+1)  。n是訓練集中抽取出來的字串數,e是這些字串中應用規

則所産生的錯誤數。學習過程一直進行,直到能覆寫所有該被覆寫的抽取字串都被覆寫為

止。最後把那些過适(overfitting)規則删除掉。

WHISK與SRV、RAPIER等一樣可以處理結構化和非結構化文本,但沒有“單格”抽取法的缺

陷。象WIEN一樣,WHISK通過多格“格架構”(Case Frame),把有關的資訊聯系在一起。

WHISK與SRV和RAPIER也不同,操作的對象不是整個文檔,而是象句子或類似長度的文本。

WHISK象SoftMealy一樣可以處理資訊點順序變化的情況,但需要輸入各種例子,以便學習

所有可能的排序。由于其特征集的表達能力不強,是以不能表達否定特征(negated feat

ures),比SRV的性能要差一些。

第4.3.節                小結

本章比較了幾個分裝器的自動學習系統。表 4. 1 總結了這些系統的特點。

表 4. 1. 七個系統的功能特征比較

系統            結構化    半結構化    自由式    多槽    缺失資訊    次序變化

ShopBot        X                             

WIEN             X                                     X           

SoftMealy      X           X                                     X             X*

STALKER        X           X                        *           X             X

RAPIER          X           X                                     X             X

SRV               X           X                                     X             X

WHISK          X           X             X         X           X             X*

第五章         商用系統簡介

第5.1.節        應用範圍...  

第5.2.節        商用系統...  

第5.2.1.節     Junglee.  

第5.2.2.節     Jango.  

第5.2.3.節     MySimon.  

第5.3.節        小結...  

網際網路上的海量資訊是世界各地的使用者都能獲得的,是以,能幫助完成資訊自動收集和分

析的代理程式是非常有用的。具有如此技術的應用程式有很多。

本章第1節介紹了資訊抽取應用系統已被試用的幾個領域。第2節介紹了首批商用系統。

第5.1.節          應用範圍

網上有很多有用的資訊,例如電話黃頁、産品目錄、股票行情、天氣預報等。這些資訊可

能不是由一個網上資料庫提供,而是分散在多個資料庫中。這些資料庫可供使用者輸入關鍵

字等查詢條件進行搜尋,然後自動生成網頁,把結果顯示出來。

一般說來,把來源分散的資料集中在一起是非常有用的。但是,以浏覽器為界面的浏覽方

式不直接支援把不同網站的資料內建起來,是以,資訊抽取工具便有了用武之地。

前一章節介紹的系統對幾種不同的網頁資訊進行了處理。下面重溫一下其中幾類:

* 産品描述

ShopBot專為此設計[17,18],用于比價購物。所抽取的産品資訊按價格排序。

* 餐廳指引

STALKER被用來抽取不同網站上的餐廳資訊,如餐廳名稱、菜肴種類、價格、烹調方法、地

址、電話和評價。[42,43]  

* 講座通知

SRV試用在講座資訊的抽取任務上,把講者、地點、時間等資訊抽取出來。

* 招聘廣告

RAPIER和WHISK被用于招聘廣告的資訊抽取。需抽取的資訊點包括職位名稱、工資、地點等

* 人事更疊公告

這項任務需要處理自由式文本,屬于傳統的資訊抽取任務。WHISK曾被實驗從一堆華爾街金

融雜志的文章中分析出公司管理層的人事更疊事件[52]。目标是抽取出公司名稱、職位、

新任人員的姓名、卸任人的姓名。

以上隻是這種技術可發揮作用的許多應用領域中的很小的一部分。其他還有很多例子,例

如,租賃廣告、地理資訊、假日旅遊資訊、天氣預報、參考書目資訊等。

總的說來,具有資訊抽取和收集功能的代理程式可以用于處理任何清單式的、分散在一堆

網頁上的資料。

第5.2.節          商用系統

在上節提到的應用中,比價購物是主要的商用領域之一。其原因之一是近來對電子商務的

普遍關注以及網際網路上與此相關的應用在不斷增長。

另一原因是這類網上商店網站專門為使用者快速找到商品而設計,具有統一的外觀和風格。

這就為比價系統自動處理商品資訊帶來了便利。

由于不同商家經常經營同一商品,是以,從不同商家網站中收集并比較同一産品的價格的

服務受到網上購物使用者的歡迎。通常,網上商店提供的商品資訊是存在資料庫系統中的。

使用者需要這些資訊時,系統将根據使用者的請求從資料庫中提取資料,當即顯示給使用者。這

部分的資訊成為了“暗藏網”(hidden web),因為搜尋引擎查不到這些資料。比價系統

成為除手工收集以外的這類資訊擷取的唯一途徑。

下面将介紹三種商用比價系統:Junglee,Jango和MySimon。它們是市面上最引人注目的系

統,實作方法各有千秋。Jango和mySimon用的是線上模式,即當使用者送出請求時馬上到各

網站查找資訊。Junglee則先把資料收集下來,在必要的時候進行更新。

每個系統都是在使用者的請求下傳回産品清單,使用者可對清單上的價格作出比較并決定從哪

個商家中購買。下面對以上系統作一簡要介紹。

第5.2.1.節        Junglee

1996年斯坦福大學的研究所學生們建立了Junglee。1998年Amazon以大約1億8千萬美圓的價格收

購了該系統。Junglee使用的是一種被成為虛拟資料庫(Virtual Database, VDB)的技術

,并利用HTML和XML的混合形式表示從多個網站中擷取的資訊 [46,48] 。

VDB把分散的資料收集下來,規範化并整合起來,為程式員提供一個單一資料庫的界面。分

裝器負責與資料源對接,把資料轉換成資料庫。

VDB有兩個主要組成部分:資料整合系統和資料釋出系統。前者完成資料的抽取,後者定期

完成資料庫更新。

資料整合系統有三個組成部分:一組分裝器、一個影射器和一個抽取器。分裝器提供對不

同網站的統一接口,用描述性程式設計語言建造,特别針對網站結構和連結網站間的特點而設

計。

影射器用預定義的影射規則,把抽取出來的資料轉換成統一的格式。抽取器用字典和語言

學規則從非結構化的文本中歸納出其組織結構。兩者都采用了特殊設計的語言來編寫規則

。針對每個網站都有一個單獨的分裝器,而抽取器則針對所有類似網站。

第5.2.2.節        Jango

Jango的前身是ShopBot,是NETbot的産品。發源于華盛頓大學的研究者Oren Etzioni 和  

Dan Weld的研究成果[17,18]。1997年10月Excite用3500萬美圓收購了NetBot,把Jango整

合進其購物頻道。

Jango由四部分組成[8]:(I)一個自然語言前端,能将使用者請求轉換成産品描述的邏輯表

示;(ii)一個查詢路由器(query router),能判定産品類别,找出相關的一系列網站

;(iii)一個內建引擎,能平行向標明的網站送出查詢;(iv)一個過濾器,能用類似于

ShopBot 的方法,把資訊抽取出來。

在學習階段,Jango根據網上商店首頁的URL和産品領域知識,學習如何在網站購物,能學

得每個商店的産品描述的格式,擷取價格等産品屬性。在購物階段,這些學得的描述将被

用于抽取使用者指定的産品資訊。資訊抽取是線上平行進行。結果以價格排序顯示給使用者。

第5.2.3.節        MySimon

MySimon是Michael Yang和Yeogirl Yun在1998年4月一起建立的。一種被稱為虛拟學

習代理(Virtual Learning Agent-VLA)的技術由Yeogirl Yun開發并用于網站的學習中

VLA生成若幹智能代理,能模仿人的采購行為,經過訓練可從任何一個購物網站上抽取資訊

代理的訓練過程是通過一個圖形界面進行的。訓練者無須是程式設計人員。在浏覽網上商店的

同時,系統會複制其獲得的資訊。根據訓練者的操作行為和複制的資訊,系統會生成能使

代理運作的編碼。

第5.3.節          小結

資訊抽取技術可以發揮作用的地方有許多。不過,最成功的要數比價購物。最近兩年來,

比價購物系統已經投入商用。其中比較出色的是Jango, MySimon和Junglee。

Jango線上進行抽取,用機器學習方法學得網站結構。MySimon也以線上方式抽取資訊,但

使用的學習方法不同。非程式員通過實際上網購物,教會智能代理學習如何從網站上抽取

相關的資訊。

Junglee把資料抽取出來并儲存在資料庫中,然後用資料庫作為比價系統的資訊源。一種專

用的語言被用來描述網站結構并生成抽取過程所需的代碼。

第六章         總結和讨論

第6.1.節        總結...  

第6.2.節        讨論...  

第6.1.節               總結

資訊抽取是近十年來新發展起來的領域。MUC等國際研讨會給予高度關注,并提出了評價這

類系統的方法,定義了評價名額體系。

資訊抽取技術的研究對象包括結構化、半結構化和自由式文檔。對于自由式文檔,多數采

用了自然語言處理的方法,而其他兩類文檔的處理則多數是基于分隔符的。

網頁是資訊抽取技術研究的重點之一。通常用分裝器從一特定網站上抽取資訊。用一系列

能處理不同網站的分裝器就能将資料統一表示,并獲得它們之間的關系。

分裝器的建造通常是費事費力的,而且需要專門知識。加上網頁動态變化,維護分裝器的

成本将很高。是以,如何自動建構分裝器便成為主要的問題。通常采用的方法包括基于歸

納學習的機器學習方法。

有若幹研究系統被開發出來。這些系統使用機器學習算法針對網上資訊源生成抽取規則。

ShopBot,WIEN ,SoftMealy和STALKER生成的分裝器以分隔符為基礎,能處理結構化程度

高的網站。RAPIER,WHISK和SRV能處理結構化程度稍差的資訊源。所采用的抽取方法與傳

統的IE方法一脈相承,而學習算法多用關系學習法。

網站資訊抽取和分裝器生成技術可在一系列的應用領域内發揮作用。目前隻有比價購物方

面的商業應用比較成功,而最出色的系統包括Jango,Junglee和MySimon。

第6.2.節                讨論

目前的搜尋引擎并不能收集到網上資料庫内的資訊。根據使用者的查詢請求,搜尋引擎能找

到相關的網頁,但不能把上面的資訊抽取出來。“暗藏網”不斷增加,是以有必要開發一

些工具把相關資訊從網頁上抽取并收集起來。

由于網上資訊整合越來越重要,雖然網站資訊抽取的研究比較新,但将不斷發展。機器學

習方法的使用仍将成為主流方法,因為處理動态的海量資訊需要自動化程度高的技術。在

文獻[52]中提出,結合不同類型的方法,以開發出适應性強的系統,這應是一個有前途的

方向。在文獻[36]中,一種混合語言知識和句法特征的方法也被提出來。

本文介紹的系統多數是針對HTML文檔的。以後幾年XML的使用将被普及。HTML描述的是文檔

的表現方式,是文檔的格式語言。XML則可以告訴你文檔的意義,即定義内容而不隻是形式

。這雖然使分裝器的生成工作變得簡單,但不能排除其存在的必要性。

将來的挑戰是建造靈活和可更新的分裝器自動歸納系統,以适應不斷增長的動态網絡的需

要。

參考文獻

[1]  S. Abiteboul.

Querying Semistructured Data.

Proceedings of the International Conference on Database Theory (ICDT), Greece,

January 1997.

[2] B. Adelberg.

NoDoSE - A tool for Semi-Automatically Extracting Semistructured Data from Text

Documents.

Proceedings ACM SIGMOD International Conference on Management of Data, Seat-

tle, June 1998.

[3] D. E. Appelt, D. J. Israel.

Introduction to Information Extraction Technology.

Tutorial for IJCAI-99, Stockholm, August 1999.

[4] N. Ashish, C. A. Knoblock.

Semi-automatic Wrapper Generation for Internet Information Sources.

Second IFCIS Conference on Cooperative Information Systems (CoopIS), South Car-

olina, June 1997.

[5] N. Ashish, C. A. Knoblock.

Wrapper Generation for semistructured Internet Sources.

SIGMOD Record, Vol. 26, No. 4, pp. 8--15, December 1997.

[6] P. Atzeni, G. Mecca.

Cut & Paste.

Proceedings of the 16'th ACM SIGACT-SIGMOD-SIGART Symposium on Principles

of Database Systems (PODS'97), Tucson, Arizona, May 1997.

[7] M. Bauer, D. Dengler.

TrIAs - An Architecture for Trainable Information Assistants.

Workshop on AI and Information Integration, in conjunction with the 15'th National

Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[8] P. Berka.

Intelligent Systems on the Internet.

http://lisp.vse.cz/ berka/ai-inet.htm, Laboratory of Intelligent Systems, University

of Economics, Prague.

[9] L. Bright, J. R. Gruser, L. Raschid, M. E. Vidal.

A Wrapper Generation Toolkit to Specify and Construct Wrappers for Web Accessible

Data Sources (WebSources).

Computer Systems Special Issue on Semantics on the WWW, Vol. 14 No. 2, March

1999.

[10] S. Brin.

Extracting Patterns and Relations from the World Wide Web.

International Workshop on the Web and Databases (WebDB'98), Spain, March 1998.

[11] M. E. Califf, R. J. Mooney.

Relational Learning of Pattern-Match Rules for Information Extraction.

Proceedings of the ACL Workshop on Natural Language Learning, Spain, July 1997.

[12] M. E. Califf.

Relational Learning Techniques for Natural Language Information Extraction.

Ph.D. thesis, Department of Computer Sciences, University of Texas, Austin, August

1998. Technical Report AI98-276.

[13] S. Chawathe, H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J.

Ullman, J. Widom.

The TSIMMIS Project: Integration of Heterogeneous Information Sources.

In Proceedings of IPSJ Conference, pp. 7--18, Tokyo, Japan, October 1994.

[14] B. Chidlovskii, U. M. Borghoff, P-Y. Chevalier.

Towards Sophisticated Wrapping of Web-based Information Repositories.

Proceedings of the 5'th International RIAO Conference, Montreal, Quebec, June 1997.

[15] M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, S. Slattery.

Learning to Extract Symbolic Knowledge from the World Wide Web.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),

Madison, Wisconsin, July 1998.

[16] M. Craven, S. Slattery, K. Nigam.

First-Order Learning for Web Mining.

Proceedings of the 10'th European Conference on Machine Learning, Germany, April

1998.

[17] R. B. Doorenbos, O. Etzioni, D. S. Weld.

A Scalable Comparison-Shopping Agent for the World Wide Web.

Technical report UW-CSE-96-01-03, University of Washington, 1996.

[18] R. B. Doorenbos, O. Etzioni, D. S. Weld.

A Scalable Comparison-Shopping Agent for the World-Wide-Web.

Proceedings of the first International Conference on Autonomous Agents, California,

February 1997.

[19] O. Etzioni

Moving up the Information Food Chain: Deploying Softbots on the World Wide Web.

AI Magazine, 18(2):11-18, 1997.

[20] D. Florescu, A. Levy, A. Mendelzon.

Database Techniques for the World Wide Web: A Survey.

ACM SIGMOD Record, Vol. 27, No. 3, September 1998.

[21] D. Freitag.

Information Extraction from HTML: Application of a General Machine Learning Ap-

proach.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),

Madison, Wisconsin, July 1998.

[22] D. Freitag.

Machine Learning for Information Extraction in Informal Domains.

Ph.D. dissertation, Carnegie Mellon University, November 1998.

[23] D. Freitag.

Multistrategy Learning for Information Extraction.

Proceedings of the 15'th International Conference on Machine Learning (ICML-98),

Madison, Wisconsin, July 1998.

[24] R. Gaizauskas, Y. Wilks.

Information Extraction: Beyond Document Retrieval.

Computational Linguistics and Chinese Language Processing, vol. 3, no. 2, pp. 17--60,

August 1998,

[25] H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman, J.

Widom.

Integrating and Accessing Heterogeneous Information Sources in TSIMMIS.

In Proceedings of the AAAI Symposium on Information Gathering, pp. 61--64, Stan-

ford, California, March 1995.

[26] S. Grumbach and G. Mecca.

In Search of the Lost Schema.

Proceedings of the International Conference on Database Theory (ICDT'99),

Jerusalem, January 1999.

[27] J-R. Gruser, L. Raschid, M. E. Vidal, L. Bright.

Wrapper Generation for Web Accessible Data Source.

Proceedings of the 3'rd IFCIS International Conference on Cooperative Information

Systems (CoopIS-98), New York, August 1998.

[28] J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo.

Extracting Semistructured Information from Web.

Proceedings of the Workshop on Management of Semistructured Data, Tucson, Ari-

zona, May 1997.

[29] J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yerneni, M. Breunig, V. Vassalos.

Template-Based Wrappers in the TSIMMIS System.

Proceedings of the 26'th SIGMOD International Conference on Management of Data,

Tucson, Arizona, May 1997.

[30] C-H. Hsu.

Initial Results on Wrapping Semistructured Web Pages with Finite-State Transducers

and Contextual Rules.

Workshop on AI and Information Integration, in conjunction with the 15'th National

Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[31] C-H. Hsu and M-T Dung.

Generating Finite-Sate Transducers for semistructured Data Extraction From the

Web.

Information systems, Vol 23. No. 8, pp. 521--538, 1998.

[32] C. A. Knoblock, S. Minton, J. L. Ambite, N. Ashish, P. J. Modi, I. Muslea, A. G.

Philpot, S. Tejada.

Modeling Web Sources for Information Integration.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),

Madison, Wisconsin, July 1998.

[33] N. Kushmerick, D. S. Weld, R. Doorenbos.

Wrapper Induction for Information Extraction.

15'th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya,

August 1997.

[34] N. Kushmerick.

Wrapper Induction for Information Extraction.

Ph.D. Dissertation, University of Washington. Technical Report UW-CSE-97-11-04,

1997.

[35] N. Kushmerick.

Wrapper induction: Efficiency and expressiveness.

Workshop on AI and Information Integration, in conjunction with the 15'th National

Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[36] Kushmerick, N.

Gleaning the Web.

IEEE Intelligent Systems, 14(2), March/April 1999.

[37] S. Lawrence, C.l. Giles.

Searching the World Wide Web.

Science magazine, v. 280, pp. 98--100, April 1998.

[38] A. Y. Levy, A. Rajaraman, J. J. Ordille.

Querying Hetereogeneous Information Sources Using Source Descriptions.

Proceedings 22'nd VLDB Conference, Bombay, September 1996.

[39] S. Muggleton, C. Feng.

Efficient Induction of Logic Programs.

Proceedings of the First Conference on Algorithmic Learning Theory, New York,

1990.

[40] I. Muslea.

Extraction Patterns: From Information Extraction to Wrapper Induction.

Information Sciences Institute, University of Southern California, 1998.

[41] I. Muslea.

Extraction Patterns for Information Extraction Tasks: A Survey.

Workshop on Machine Learning for Information Extraction, Orlando, July 1999.

[42] I. Muslea, S. Minton, C. Knoblock.

STALKER: Learning Extraction Rules for Semistructured, Web-based Information

Sources.

Workshop on AI and Information Integration, in conjunction with the 15'th National

Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[43] I. Muslea, S. Minton, C. Knoblock.

Wrapper Induction for Semistructured Web-based Information Sources.

Proceedings of the Conference on Automatic Learning and Discovery CONALD-98,

Pittsburgh, June 1998.

[44] I. Muslea, S. Minton, C. Knoblock.

A Hierarchical Approach to Wrapper Induction.

Third International Conference on Autonomous Agents, (Agents'99), Seattle, May

1999.

[45] S. Nestorov, S. Aboteboul, R. Motwani.

Inferring Structure in Semistructured Data.

Proceedings of the 13'th International Conference on Data Engineering (ICDE'97),

Birmingham, England, April 1997.

[46] STS Prasad, A. Rajaraman.

Virtual Database Technology, XML, and the Evolution of the Web.

Data Engineering, Vol. 21, No. 2, June 1998.

[47] J.R. Quinlan, R. M. Cameron-Jones.

FOIL: A Midterm Report.

European Conference on Machine Learning, Vienna, Austria, 1993.

[48] A. Rajaraman.

Transforming the Internet into a Database.

Workshop on Reuse of Web information, in conjunction with WWW7, Brisbane, April

1998.

[49] A. Sahuguet, F. Azavant.

WysiWyg Web Wrapper Factory (W4f).

http://cheops.cis.upenn.edu/ sahuguet/WAPI/wapi.ps.gz, University of Pennsylva-

nia, August 1998.

[50] D. Smith, M. Lopez.

Information Extraction for Semistructured Documents.

Proceedings of the Workshop on Management of Semistructured Data, in conjunction

with PODS/SIGMOD, Tucson, Arizona, May 1997.

[51] S. Soderland.

Learning to Extract Text-based Information from the World Wide Web.

Proceedings of the 3'rd International Conference on Knowledge Discovery and Data

Mining (KDD), California, August 1997.

[52] S. Soderland.

Learning Information Extraction Rules for Semistructured and Free Text.

Machine Learning, 1999.

[53] K. Zechner.

A Literature Survey on Information Extraction and Text Summarization.

Term paper, Carnegie Mellon University, 1997.

[54] About mySimon.

http://www.mysimon.com/about mysimon/company/backgrounder.anml