天天看點

面向資訊處理的詞彙語義研究中的若幹問題

面向資訊處理的詞彙語義研究中的若幹問題

                                    董振東 董強

(載于《語言文字應用》2001 年第三期,pp.27-32)

提要 本文概述了國家社會科學“九五”重大項目“資訊處理用現代漢語詞彙研究”中的

子課題“現代漢語知識詞典的建立和詞彙内部語義網絡描述”取得的成果,着重讨論了在研

究過程中曾面臨的一些政策性和方法論的問題。筆者把它們歸納為五個關系:知識擷取和表

達的深與淺的關系、語義知識和世界知識的關系、分類和屬性标注的關系、知識的自動擷取

和人工擷取的關系、知識體系的完備性與實用性檢驗的關系。

Some Problems in Study of IT-oriented Lexical Semantics

Zhendong Dong Qiang Dong

Abstract This paper outlines the achievements in the study of “construction of a

knowledge dictionary of contemporary Chinese and description of semantic structure of words ”, a

sub-project in the 9th five-year plan program “modern Chinese Vocabulary studies in Chinese

information processing”. The paper discusses some problems of research strategy and

methodology. They are (1) the depth in knowledge acquisition and representation, (2) semantic

knowledge and world knowledge, (3) classification and semantic feature tagging, (4) automatic

acquisition and human acquisition of knowledge, (5) completeness of a knowledge system and

evaluation in its application.

筆者于1998 年開始承擔國家社會科學“九五”重大項目“資訊處理用現代漢語詞彙研究”

中的子課題 – 現代漢語知識詞典的建立和詞彙内部語義網絡描述,這給筆者一個涉足目前

研究熱點的好機會。這項研究包括兩個部分:第一,分析和提取語言的意義的最基本的元素,

即義原。該子課題負責人董振東在1988 年提出,利用中文詞語的意義結構的特點,将是分

析和提取義素的最好、最友善的方法。然後利用提取的義原來建立面向資訊處理的《漢語知

識詞典》,這樣做也是對于義原的檢驗。本項研究提取了1503 個義原,以及71 個詞語間的

動态角色關系和動态屬性。迄今為止,研究者用它們來标注中文和英文各70000 個詞語,證

明這些義原以及動态角色關系和動态屬性是正确的、可靠的、有生命力的,進而建立了《漢

語知識詞典》。該詞典目前被公認為規模最大、收錄詞語最多且最新、為詞語提供的資訊内

容最豐富的,面向資訊處理的漢語知識詞典。能夠這樣完整地系統地提取義原,并加以科學

地利用,建立如此規模的知識詞典,是革命性的。第二,在上述義原以及動态角色關系和動

态屬性的基礎上,探索中文結構的構造模式。在經過大量的實際語言素材的調查研究,并得

到了香港科技大學研究項目HKUST 6149/98E的支援之後,研究從原來拟定的局限于詞語内部

語義關系擴充到更大範圍的短語, 原來拟定的局限于語義關系被更深的資訊結構關系所取

代.迄今為止得到了271 個結構模式,進而建立了一個《中文資訊結構庫》,它包含11000

個詞語的執行個體。

邊研究,邊應用是本項研究的的一個突出的特點。得到應用和推廣是研究成就的最好證明。

迄今為止采用《漢語知識詞典》和《中文資訊結構庫》的機構已有中港台三地、新加坡、美

國、加拿大等多個大學和科研機構。應用可分為三類:一是基于《漢語知識詞典》和《中文

資訊結構庫》文本語義關系的标注,如香港科技大學的研究;二是對《漢語知識詞典》和《中

文資訊結構庫》的學習和研究,如台灣中央研究院資訊所、新加坡南洋理工大學、美國馬裡

蘭大學等;三是基于《漢語知識詞典》和《中文資訊結構庫》的應用技術,如句法結構或語

義排歧,資訊過濾、智能檢索中的自然語言接口等。鑒于上述,本項研究獲得了學術界很高

的評價。香港科技大學顔國偉博士指出:“它的理論基礎:知網的知識表達模式是針對計算

機的資訊處理特點而制定的,理論水準超過面向人而設的WordNet。提供一直接處理語義,

繞過漢語文法分析的門徑。經過兩年的研究證明,詞彙内部的語義網絡描述适用于詞彙之間

的語義關系描述。由小觀大,對詞彙内部語義關系的把握直接可以取得對句子意義的了解。

這是此研究最具慧識之處,對突破目前自然語言了解的瓶頸影響深遠。”

這段時間以來,我們的使用者和讀者積極地參與論壇,經常直接來信與我們探讨種種問題,我

們也在講學或研究合作過程中面對面地和專家學者們進行廣泛的讨論。我們想在這裡對這些

讨論做一個總結,把一些最重要或談論最多的問題擺出來,其中有的也是我們自己的困惑。

望各位專家學者不吝指教。我們想這些問題可以歸納為以下五種關系。

1. 知識擷取和表達的深與淺的關系

這是一個關于研究的“度”的把握。知識擷取和表達得深一些好還是淺一些好?有人對我們

說,“你們研究得很深,但好像是太深了。”這也是我們經常考慮的問題,我們也為此經常留

意使用者的反映。是深還是淺,我們的曆來主張是:深研究,淺應用。這就是說,研究要深,

但應用時應該考慮到系統工程的因素,盡量采用成熟的、已經經過試驗的技術,而不要一味

追求高精尖。這有點好像老師教學,老師準備的是一桶水,才能給學生一碗水。另外,應用

者還要善于從深度研究的成果中去提煉适合自己的精華。我們也注意到部分使用者确實沒有用

得像我們設計的那麼深(如果更深效果會更好)。

研究深點好,但絕不是可以憑着性子為研究而研究。研究必須考慮到應用,但也不能過分功

利主義,隻追求眼前利益。研究也有一個帶動應用的任務。目前的研究應該深些還是淺些,

我們也可以近十年來的動向看出一些端倪。這些年來國内外都在語義研究上下功夫,建立規

模不小的語義詞典或知識詞典。例如普林斯頓大學的英語WordNet,Fillmore 上司開發的

研究英語動詞的FrameNet,微軟的MindNet,在歐洲有基于WordNet的EurowordNet,日

本有電子辭書研究所(EDR)的日語和英語的概念詞典,還有美國HPKB(High Performance

KB)等等。現有的語言資訊處理系統種類不少,這些年來品質也改善了許多。但是也應該坦

白承認問題也不少,實難令人滿意。存在的問題歸根到底就是一點:智能太低。最近我們對

海内外的一些主要語言資訊處理系統進行一番測試比較,其中包括音字轉換輸入系統、搜尋

引擎、英語拼寫文法檢查系統、中文拼寫文法檢查系統、英漢/漢英機器翻譯系統等。可以

這樣肯定,這些系統存在問題有一個明顯的共同特點:都卡在“意義”的這道坎上。讓我們

看看一些系統。

(1)音字轉換輸入系統,

音字轉換輸入系統,其中不乏很優秀的,但可以說它們“成”在統計上,“敗”也在統計上。

例如,下面是某系統給出的結果:

“首先是正常的投資曆年(理念)和價值觀念遭到了踐踏和破壞,市場上短期投機分為(氛

圍)越來越重”。

這裡“理念”和“氛圍”都是第二個候選。不難想象如果沒有其他有效政策作為補充,類似

的捉襟見肘的困境是很難擺脫的。

(2)搜尋引擎

眼下的搜尋引擎不能不說是低智商的,首先它為使用者提供的詢問方式實際上太過簡單,現在

基本上是“關鍵詞語”;其次“關鍵詞語”又多停留在字元串級,是以使用者鍵入“北大”來

搜尋時,系統将給出包括“北大荒”、“北大西洋”、“東北大學”、“西北大盜”等;又如當用

戶用“巴以沖突”去查詢時,系統是不會把帶有“以巴沖突”的網頁與帶有“巴以沖突”的

網頁同時提供給使用者的。系統無從知道“巴以沖突”或“以巴沖突”是相同的。這樣的狀況

應該有所改變才好。

(3)機器翻譯系統

我們曾做過這樣的測試,從網上選取一段英文原文的新聞報道,讓兩個線上的英漢機譯系統

翻譯來比較它們的譯文品質。下面是原文:

“SEOUL, South Korea -- North Korea has accepted the idea of working toward restraint

in its missile program, U.S. officials said Tuesday, citing progress on a critical

issue dividing the two countries as they explore reconciliation after 50 years.

Secretary of State Madeleine Albright ended her historic talks with North Korean

leader Kim Jong Il struck by the improbability of it all -- a cordial visit to a

Stalinist land that the United States until recently called a rogue state.”

系統A的譯文如下:

“星期二,美國官員說漢城,--南韓北北韓已經接受朝着限制它的可投射的程式用工作的觀

念,引證有關一分2 國家,當在50 年以後他們探查和解時的關鍵問題的進展.國務卿瑪德琳

Albright 結束--她的曆史性和被它的不大可能性完全擊打的北方北韓人領袖Kim 青年男奴

Il 的談話一次熱情友好到一美國直到最近認為一兇猛的狀态是它的斯大林主義者陸地觀

光.”

系統B的譯文如下:

“SEOUL,南韓--北北韓已接受朝着其飛彈計劃中的克制工作的想法,美國官員在星期二說,

在劃分兩個國家的關鍵問題上将進步引用為他們在50 年之後探索和解。 國務卿瑪德琳奧爾

布萊特結束她與北北韓上司者金正日的具有曆史意義談話按它的不可能性打擊所有--對斯

大林主義者陸地的甜飲料通路直到最近呼叫的流氓狀态的美國。”

據報道,系統A是外國公司開發的,2000年推出的;系統B是國内公司開發的,它的核心

技術大約是在十年前開發的。比較這兩個系統,我們至少可以得出一個結論,那就是實用的

機器翻譯系統的技術還有很大的改進的空間。

2. 語義知識和世界知識的關系

我們在研究和開發《漢語知識詞典》的過程中常常遇到的問題之一是如何把握語義知識和世

界知識的界線,如何保證我們能始終堅持建立世界知識詞典這一目标。我們任何時候都牢記:

我們研究的對象是世界知識,我們的目标是建立知識詞典而不是語義詞典。首先,我們自己

必須明确語義詞典與知識詞典的差別。語義詞典或者義類詞典和世界知識詞典(如百科全書)

的主要差別,簡單地說有兩個方面。

第一,語義詞典或者義類詞典描述的主要是狹義的語義學的知識。傳統上這樣的詞典的主要

用途是為人們提供寫作時選擇詞語用的。是以它們通常包含着有關詞語的同義、反義等,甚

至包括關于這些詞語的細微的用法上差異的知識等。世界知識詞典描述的主要是有關客觀世

界的各種知識。它們不會僅僅提供對于某一事物的定義(這是普通的語言詞典做的),而是

會提供關于事物的更加詳細的知識,就像普通的百科全書做的那樣。

第二,從詞語條目的選擇和收錄上,語義詞典或者義類詞典通常以國文詞語為主,通常較少

涉及百科類詞語,因為它的着眼點是詞語本身的知識。而世界知識詞典的選擇和收錄對象将

是百科事物,因為它的着眼點是詞語所指稱事物的知識。

總之,語義詞典或者義類詞典教會人們如何運用詞語;而世界知識詞典教會人們懂得世界。

我們自己還有一個必須面對的問題,這就是我們研究和開發的不是面向人的知識詞典,而是

面向計算機的知識詞典。這樣的詞典必還須在一定程度上能夠教會計算機懂得和計算知識,

或者一定程度的推理。以我們的《漢語知識詞典》為例,隻要借助于一小段程式,你的計算

機将可以回答你這樣的問題:“人們到哪裡去買書”,“我們可以從儲蓄所貸款嗎”等等。這

些顯然不是語義詞典或義類詞典要解決的問題,即便它是線上的。

我們是通過什麼方法來建立世界知識的呢?我們的基本做法是:靜态地、孤立地對概念(由

詞語表現)逐一進行義元标注,然後期待通過概念的内在聯系來動态地、綜合地反映它們的

關系網絡。試看下面各個概念的标注:

‘博士後’ 标注為:human|人,*research|研究,*study|學,education|教育

‘研究所’ 标注為:InstitutePlace|場所,*research|研究,#knowledge|知識

‘論文集’ 标注為:publications|書刊,#research|研究

‘學術成就’标注為:result|結果,#succeed|成功,#knowledge|知識,#research|研究,#study|學

‘治學’ 标注為:research|研究,content=knowledge|知識

‘結題’ 标注為:cease|停做,content=affairs|事務,#research|研究

這裡我們可以看到,概念“博士”和其他幾個概念“研究所”、“論文集”、“學術成就”、“治

學”、“結題”等都是被靜态地、孤立地标注的。但等到我們标注完畢之後,我們發現它們居

然有着一種故事性的聯系。這故事是這樣的:“一個博士在研究所從事研究工作,取得了學

術成就。。。”另外,這些概念的每一個都又有各自的上下位關系、同義關系等等,再者,它

們的定義中的其他義元又會與其他更多的概念發生聯系。如果我們把“knowledge|知識”作

為關鍵詞在《知網》浏覽器中按“feature”模式查一下,我們會得到近150 組相關的概念群,

約500 以上個概念。這樣一來,就形成了一個更大的概念關系網絡。

3. 分類和屬性标注的關系

說起詞彙語義研究、語義詞典建立,人們常常會談論分類的問題。關于是用分類的方法還是

用屬性标注的方法,似乎還有一些不同的看法。我們來談談我們的做法和體會。先說明什麼

樣的方法是分類的方法,什麼樣的方法是屬性标注的方法。用執行個體來說明會簡單些。 例如,

《同義詞林》用的是分類的方法;而《知網》用的則是屬性标注的方法。對于每一個詞語或

概念而言,分類的方法給出的是一個“單一标記”;而屬性标注的方法給出的是一個“複雜

特征标記”。分類的方法的着眼點是上下位的樹狀關系;而屬性标注的方法的着眼點是多元、

多層次的網狀關系。

我們的經驗告訴我們,如果你的研究是面向資訊處理的,如果你的目标是要建立知識詞典而

不隻是義類詞典,那麼屬性标注的方法應該會比分類的方法更好。

4. 知識的自動擷取和人工擷取的關系

有人告訴我們說,“你們的工作是為概念建立它們之間的種種關系,你們為什麼采取利用一

些電子詞典和百科全書,自動地擷取你們想建立的關系?美國有公司就是這麼做的。” 首先,

在十年前,我們就是想這麼做,也沒有這種條件。其次,即便有了條件,我們也不會那麼做。

我們認為面向資訊處理的知識詞典的研究基礎還太不成熟,有許多基本問題還沒有解決,例

如,應該建立什麼類型架構。以WordNet 為例,除了部分形容詞有作為“值”指向與之相

對應的名詞外,它沒有揭示更多的跨詞類的關系,而隻揭示屬于同一詞類的關系如上下位、

同義、反義、整體與部件等,這樣的架構應該算是充分還是不足呢?再者,電子詞典和百科

全書給出的定義是否會那麼嚴謹,可以自動抽出概念的上下位關系呢?從大規模的真實語料

中自動擷取知識,它的“利”是顯而易見的,它的語料是“真”的,就是我們資訊處理是實

際遇到的,它的涵蓋廣度是人工所無法企及的,但是它的“弊”也是明擺着的,它難免會遇

到語料的稀疏、偏向的局限,也難免會産生一些垃圾。人工擷取的好處是較為精細、容易經

過推敲,但是它難以避免人為的主觀因素,難以避免涵蓋面小,同時如果架構複雜、資訊量

和資料量大,那麼保證一緻性将是困難的,最後就是它的完成将是費時、費力的工程。我們

一直認為自動擷取作為一種輔助的方法或用來作為對人工擷取的檢驗,那将是非常好的。其

實人工的還是自動的,兩者始終是相輔相成,而不應該是對立的。但我們相信:愈是深層次

的知識,人工的成分會更大。

5.知識描述體系的完備性與實用性檢驗的關系

大家知道,《知網-知識詞典》的知識描述的基本方法是采用對概念進行屬性描述的方法而不

是分類的方法;其基本架構是由1503 個義元和71個動态角色與屬性作為基本機關,并借助

于知識描述語言加以表達的。曾有人問,“你們這1500 個義元是怎麼得出的?參考了那本義

類詞典?” 我們曾做過說明,我們的義元是從4000多個漢字的義項中提取的,現在又經過

了近7 萬個漢語詞語和約6 萬個英語詞語的實際考核與調試最後确定的。 也有人問,“這

1503 個義元和71 個動态角色與屬性是否足夠?”我們的體會是:知識、意義是人類長期生

活、生産活動積累起來的精神産品,無論對于個人或者對于全人類都是沒有止境。語言是人

類思維的工具,也是人類思維的載體。我們不認為會有任何一種描述架構是可能将世界知識

毫無遺漏地覆寫住的。這至少是我們的認識。其實,對于面向資訊處理的知識系統是好還是

差,最簡單的檢驗方法就是将其應用于真實文本的處理。總之,我們覺得未經過實際的考核,

要就一個知識描述體系的充足與否下個結論是很難的。如果有人向我介紹一個機器翻譯系統

是如何設計的,設計的理念是什麼,裡面包含那些子系統等等,而沒有試着讓它運作一下,

翻譯一些句子,就要我們作出評價,我們是做不到的。

參考文獻

[1] 陳小荷,一個面向工程的語義分析體系,《語言文字應用》第2期,1998

[2] 董振東,邏輯語義及其在機譯中的應用,中國的機器翻譯,1984

[3] 董振東,機器翻譯的啟示和挑戰,上海科技翻譯 第1期(總第11期),1988

[4] Dong, Zhendong, Knowledge description: what, how and who, Manuscripts & Program of

International Symposium on Electronic Dictionary, Tokyo, 1988

[5] 董振東,語義關系的表達和知識系統的建造,《語言文字應用》第3期,1998

[6] 馮志偉,自然語言的計算機處理,上海外語教育出版社,1996

[7] 漢語語義學,賈彥德,北京大學出版社,1999

[8] 林杏光,詞彙語義和計算語言學, 國文出版社,1999

[9] 俞士汶等,現代漢語文法資訊詞典詳解,清華大學出版社,1998

[10] 徐通锵,《馬氏文通》和中西語言學結合的道路,’98現代漢語文法學國際學術會議論文

提要集,1998

[11] 張普,主持人的話,《語言文字應用》第2期,1998

線上資源

http://www.keenage.com

http://www..cogsci.princeton.edu/~wn 

繼續閱讀