天天看點

資料庫必知詞彙:全文檢索

全文檢索(Full-Text Search)是20世紀末産生的一種新的資訊檢索技術。經過幾十年的發展,特别是以計算機技術為代表的新一代資訊技術應用,使全文檢索從最初的字元串比對和簡單的布爾邏輯檢索技術演進到能對超大文本、語音、圖像、活動影像等非結構化資料進行綜合管理的複合技術。由于内涵和外延的深刻變化,全文檢索系統已成為新一代管理系統的代名詞,衡量全文檢索系統的基本名額和全文檢索的内涵也發生巨大變化。

全文資料庫是全文檢索系統的主要構成部分。所謂全文資料庫是将一個完整的資訊源的全部内容轉化為計算機可以識别、處理的資訊單元而形成的資料集合。全文資料庫不僅存儲了資訊,而且還有對全文資料進行詞、字、段落等更深層次的編輯、加工的功能,而且所有全文資料庫無一不是海量資訊資料庫。對于全文資料庫這種比較非結構化的資料,用RDBMS(關系資料庫管理系統)技術來管理是最好的一種方式。但是由于RDBMS底層結構的緣故使得它管理大量非結構化資料顯得有些先天不足,特别是查詢這些海量非結構化資料的速度較慢,而通過全文檢索技術就能高效地管理這些非結構化資料。

全文檢索系統的實作技術分為三個方面:關系型全文檢索系統、層次型全文檢索系統、面向對象的全文檢索系統及自動标引技術。

針對全文資料系統的建構,提出全文檢索系統的實作技術,主要分為5個步驟:

(1) 資料準備:它是指針對計劃加載到全文資料庫中的資料進行收集、整理、歸類等預先處理的過程。加載到全文資料中的資料可以從多種途徑獲得,常見的資料來源有:電腦打字産生的檔案,電子印刷産生的文稿,計算機網上傳送的檔案,電子出版物,圖文處理産生的檔案,專門組織人力錄入建庫。

(2) 文本預處理:包括規範格式,當格式多種多樣時,應加以整理,使文獻的格式規範化;批式标引,文本預處理階段完成的批式标引,不受全文資料庫結構的限制,效率較高。

(3) 資料加載:資料準備好以後,便可以加載(拷入、輸入)到資料庫檔案中去了。加載資料可有單篇方式或批量方式。單篇方式一次加載一篇,适于平時文獻随時加載的情況。批量方式一次加載多篇,适于集中大量加載的情況。

(4) 資料檢索:資料庫建立起來之後,便可根據全文檢索系統提供的檢索功能對資料庫進行檢索。

(5) 資料維護:全文資料建立以後,需要經常對資料庫的内容進行索引、更新、追加和清理。

資料來源:

焦玉英主編.資訊檢索進展:人民郵電出版社,2003.08

全文檢索的基本原理

https://blog.csdn.net/sinat_38102206/article/details/81784315