天天看點

讀《Information Extraction:A Survey》(1)

這兩天一直在讀關于I.E.的基礎性文章,《IE:A Survey》的作者是Sunita Sarawagi,寫在2007年,在2008年發表。在寫這篇文章的時候,她供職于Indian Institute of Technology。

這是她的介紹首頁: http://www.cse.iitb.ac.in/~sunita/.

ABSTRCT

從無結構的文本中自動化得抽取結構資訊,已經開啟了一條通向查詢、組織、資料分析的新道路,實作這一點正是由于IE将備援的無機構文檔整理成為語義清晰的機構化資訊而帶來的。

INTRODUCTION

1.    IE是這樣的一個過程或者處理:将包含諸如實體、實體間關系以及對實體表述的屬性的結構化資訊從備援的無結構文檔中提取出來。

        IE已經花費了全球各個技術社群多位學者近20年的研究時間。IE最早來源于NLP社群對将名字實體從新聞報道中抽取出來這一挑戰的研究和讨論。在研究過程中,不斷引入了來自Machine-learning,database,Information retrieve,web,document analysis等領域的技術。IE的影響範圍的擴大,得益于以下兩個會議:MUC(Message Understanding Conference)、ACE(Automatic Content Extraction)。

2.    IE的技術發展:IE在最初的方法是rule-based with manually coded rules,即依靠手動編寫的規則;但由于手動的工作繁瑣和單調,于是産生了通過例子自動學習産生規則的算法,即采用了machine-learning的方法,他總體上還是基于規則的,即可稱為rule-based with machine-learning;但是當IE系統面對噪音度更大的文檔時,有時候會發現規則會很脆弱,是以産生了statistical learning;在statistical learning并存着兩條路線,generative model(以HMM作為代表),和Conditional model(以MEMM為代表);随後的statistical learning基本上全部轉向了Conditional Random Fields;随後又有來自grammar construction的技術得到了發展。

雖然,随着時間軸的延伸,各種技術方法的發現,并沒有一個明顯的勝者。rule-based與statistic-based兩條路線繼續并行發展着。當然,随後又出現了一些混合模型。

3.    應用領域

        a. Enterprise-Application:news tracking、Customer Care(像當當那樣)、Data Cleaning、classified Ads。

        b. Personal Information Management。

        c. Web-oriented Application:Citation DB、Opinion DB、Community websites、Comparsion Shopping(這裡有deep web的概念,從格式良好的頁面中抽取資訊并不是這篇報告中的内容之一,哎。。)、Ad Placement on webpages、Structured Web Search(最高境界)。

4.  對IE領域的探索可以從以下幾個方面進行:

        a. The type of structure extracted (entities, relationships, lists,tables, attributes, etc.).這裡extracted是對structure的修飾,不是說structure extracting。這樣就好了解了,指的是我們從哪些無結構文檔中抽取哪些東西出來。

        b. The type of unstructured source (short strings or documents,templatized or open-ended).對待抽取文檔集合可以按兩種方式來分。方式1:按文檔的粒度,分為記錄與句子、段落與文章;方式2:按文檔集合的在格式和風格上的異同性(heterogeneity)來分,分為machine generated pages(由deep web産生的,關于deep web 可以在這裡了解http://en.wikipedia.org/wiki/Deep_Web)、半結構的某一主題内的文檔、完全開放性質的文檔。

        c. The type of input resources available for extraction (structured databases, labeled unstructured data, linguistic tags, etc.).我感覺其實就是在說訓練樣本。

        d. The method used for extraction (rule-based or statistical, manually coded or trained from examples).

        e. The output of extraction (annotated unstructured text, or a database).

未完,持續。。。。。

文章的下載下傳位址在這裡:http://download.csdn.net/source/2517877

繼續閱讀