天天看點

Web 語義化

單詞語義化表示了它的意義。

事物的語義化意味着事物。

Web 語義化 = Web的意義。

什麼是語義化?其實簡單說來就是讓機器可以讀懂内容。

甲殼蟲樂隊是一個來自利物浦受歡迎的樂隊。

約翰列侬是披頭士樂隊的成員。

"Hey Jude"是由披頭士的代表作。

我們可以很容易了解上面的句子的意義。但這些語句怎麼

被計算機了解呢?

語句由文法規則建立。語言的文法定義了建立語言語句的規則。但是如何讓文法變為語義呢?

語義網是讓機器可以了解資料。語義網技術,它包括一套描述語言和推理邏輯。它通過一些格式對本體(Ontology)進行描述。

語義網并不是網頁之間的連結。

語義網描述了事物之間的關聯((如 A 是 B的一部分,Y 是 Z 的成員)及事物的屬性(如大小,高度,年齡,價格等)。

Web 語義化

語義網的實作是基于XML(可擴充标記語言eXtensible Markup Langauge)語言和資源描述架構(RDF)來完成的。XML是一種用于定義标記語言的工具,其内容包括XML聲明、用以定義語言文法的DTD (document type declaration文檔類型定義)、描述标記的詳細說明以及文檔本身。而文檔本身又包含有标記和内容。RDF則用以表達網頁的内容。

RDF(Resource Description Framework),即資源描述架構,是W3C推薦的用來描述WWW上的資訊資源及其之間關系的語言規範。

RDF(S)是語義網的重要組成部分,它使用URI來辨別不同的對象(包括資源節點、屬性類或屬性值)并可将不同的URI連接配接起來,清楚表達對象間的關系。

語義網雖然是一種更加美好的網絡,但實作起來卻是一項複雜而浩大的工程。 目前語義網的體系結構正在建設中,主要需要以下兩方面的支援:

(1) 資料網絡的實作

即:通過一套統一的完善的資料标準對網絡資訊進行更徹底更詳細的标記,使得語義網能夠精準的識别資訊,區分資訊的作用和含義

要使語義網搜尋更精确徹底,更容易判斷資訊的真假,進而達到實用的目标,首先需要制訂标準,該标準允許使用者給網絡内容添加中繼資料(即解釋詳盡的标記),并能讓使用者精确地指出他們正在尋找什麼;然後,還需要找到一種方法,以確定不同的程式都能分享不同網站的内容;最後,要求使用者可以增加其他功能,如添加應用軟體等。

(2)具有語義分析能力的搜尋引擎

如果說資料網絡能夠短時間通過億萬的個體實作,那麼網絡的語義化智能化就要通過人類尖端智慧群體的努力實作。研發一種具有語義分析能力的資訊搜尋引擎将成為語義網的最重要一步,這種引擎能夠了解人類的自然語言,并且具有一定的推理和判斷能力。

語義搜尋引擎(semantic search engine)和具有語義分析能力的搜尋引擎(semantically enabled search engine)是兩碼事。前者不過是語義網絡的利用,一種資訊搜尋方式,而具有語義分析能力的搜尋引擎是一種能夠了解自然語言,通過計算機的推理而進一步提供更符合使用者心理的答案。

語義網的體系結構正在建設中,目前國際範圍内對此體系結構的研究還沒有形成一個令人滿意的嚴密的邏輯描述與理論體系,中國學者對該體系結構也隻是在國外研究的基礎上做簡要的介紹,還沒有形成系統的闡述。

語義網的實作需要三大關鍵技術的支援:XML、RDF和Ontology。

XML(eXtensible Marked Language,即可擴充标記語言)可以讓資訊提供者根據需要,自行定義标記及屬性名,進而使XML檔案的結構可以複雜到任意程度。

它具有良好的資料存儲格式和可擴充性、高度結構化以及便于網絡傳輸等優點,再加上其特有的NS機制及XML Schema所支援的多種資料類型與校驗機制,使其成為語義網的關鍵技術之一。

目前關于語義網關鍵技術的讨論主要集中在RDF和Ontology身上。

RDF是W3C組織推薦使用的用來描述資源及其之間關系的語言規範,具有簡單、易擴充、開放性、易交換和易綜合等特點。

值得注意的是,RDF 隻定義了資源的描述方式,卻沒有定義用哪些資料描述資源。RDF由三個部分組成:RDF Data Model、RDF Schema和RDF Syntax。

附上:

1.語義網通過擴充現有的網際網路,在資訊中加入表示其含義的内容,使計算機可以自動與人協同工作。也就是說,語義網中的各種資源不再隻是各種相連的資訊,還包括其資訊的真正含義,進而提高計算機處理資訊的自動化和智能化。當然,計算機并不具有真正的智能,語義網的建立需要研究者們對資訊進行有效的表示,制定統一的标準,使計算機可以對資訊進行有效的自動處理。

(來源:何斌 張立厚《資訊管理原理與方法》 清華大學出版社 2007年7月第二版)

Web 語義化

第一層:Unicode與URI,是整個體系結構的基礎。

第二層:XML+NS+XMLSchema,負責文法上表示資料的内容和結構,通過使用标準的格式語言将網絡資訊的表現形式、資料結構和内容分離。

第三層:RDF+RDF Schema,它提供語義模型用于描述網上的資訊和類型。其中,RDF(Resource Description Framework),即資源描述架構,是W3C推薦的用來描述WWW上的資訊資源及其之間關系的語言規範。RDF(S)是語義網的重要組成部分,它使用URI來辨別不同的對象(包括資源節點、屬性類或屬性值)并可将不同的URI連接配接起來,清楚表達對象間的關系。

第四層:本體詞彙層,本體是關于領域知識的概念化、形式化的明确規範。在語義網體系結構中,本體的作用主要表現在:(1).概念描述,即通過概念描述揭示領域知識;(2).語義揭示,本體具有比RDF更強的表達能力,可以揭示更為豐富的語義關系;(3).一緻性,本體作為領域知識的明确規範,可以保證語義的一緻性,進而徹底解決一詞多義、多詞一義和詞義含糊現象;(4). 推理支援,本體在概念描述上的确定性及其強大的語義揭示能力在資料層面有力地保證了推理的有效性。

第五層:邏輯層,負責提供公理和推理原則,為智能服務提供基礎。其中,描述邏輯(DescriptionLogic)是基于對象的知識表示的形式化,它吸取了KL-ONE的主要思想,是一階謂詞邏輯的一個可判定子集。它與一階謂詞邏輯不同的是,描述邏輯系統能提供可判定的推理服務。除了知識表示以外,描述邏輯還用在其它許多領域,它被認為是以對象為中心的表示語言的最為重要的歸一形式。描述邏輯的重要特征是很強的表達能力和可判定性,它能保證推理算法總能停止,并傳回正确的結果。在衆多知識表示的形式化方法中,描述邏輯在十多年來受到人們的特别關注,主要原因在于:它們有清晰的模型-理論機制;很适合于通過概念分類學來表示應用領域;并提供了很用的推理服務。

第六層證明層和第七層信任層負責提供認證和信任機制。