天天看點

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

智能科學與技術叢書 點選檢視第二章 點選檢視第三章

自然語言處理的認知方法

Cognitive Approach to Natural Language Processing

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

[英] 伯納黛特·夏普(Bernadette Sharp)

[法] 弗洛倫斯·賽德斯(Florence Sèdes)

[波蘭] 維斯拉夫·盧巴澤斯基(Wies?aw Lubaszewski)

徐金安 等譯

第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

本章将讨論“盡可能解釋”原則,這條原則指的是在沒有足夠的資訊可用之前,對處理機制進行延遲。這條原則依賴于對基礎單元—語塊的識别,識别語塊則通過語塊的基本特征來實作。語塊是待處理的輸入的分段。在一些情況中,基于它們所具有資訊的可了解性,語塊可以是具有語言學結構的元素。在其他情況中,語塊隻是簡單的分段。語塊存儲在工作記憶的緩沖區中,并在可以分組的時候遞增地進行分組(基于内聚力度量),逐漸識别輸入的不同結構。對語言輸入的整體解釋不再基于逐字翻譯的機制,而是基于對輸入結構的分組,這些結構構成了“盡可能解釋”原則的基礎。

1.1 引言

自然語言處理、語言學和心理語言學從不同角度揭示了人類處理語言的方式。然而,這幾個方面的知識仍然很零散:傳統研究通常關注的是語言處理子任務(如語言習得)或子產品(如形态學、句法),并沒有形成統一的架構。要找到一個能将不同資訊源統一到一個特定體系結構中的通用模型非常困難。

存在這樣一個問題:我們仍然對語言的不同次元(韻律、句法、語用、語義等)如何互相作用知之甚少。一些語言學理論,特别是構式文法(construction grammar)[FIL 88,GOL 03,BLA 16],提出了一些方法,使聚合和建立不同次元之間的關系變得可能。這些架構依賴于構式的概念,後者是根據不同層次(詞彙、句法、韻律等)的特定屬性所連結成的一組單詞,并且與特定含義相關聯,該含義通常是非清晰的或可組合了解的(如習語或詞組)。有趣的是,這些理論也為整合多模态資訊(語言和非語言)提供了一個架構。解釋一個構式(即擷取其相關的意義)是所有次元互動作用的結果。在這種架構之下,對語言生成的處理不是一個線性過程,而是需要借助機制來對構式進行全局識别。與增量體系相反(參見[FER 02,RAY 09]等),句法、語義和語用處理不是逐字逐句進行的,而是基于更全局化的構式進行的。

在這種架構之下,語言處理需要對不同來源的資訊進行同步化的對齊,以便識别構式并得到其含義。在實際情況中(如對話),不同的輸入流可以是語言(韻律、句法、語用等)或者非語言(手勢、态度、情緒、上下文等),它們出現的時間并不同步。是以接下來需要解決的一個問題就是如何将資訊暫時性地存儲,并且延遲處理直到獲得足夠的資訊。在這種觀點下,輸入語言流(讀到或聽到的)将會被分割成任何形式的、被部分或全部識别的元素:音頻流的片段、字元集,以及(如果可能的話)由多個單詞甚至多個詞組構成的更進階别的片段。在本章中,我們為了實作上述構式提出了以下幾個問題:

1)延遲機制的本質是什麼?

2)基本單元的本質是什麼?它們是怎樣被識别的?

3)延遲機制是如何實作的?

1.2 延遲處理

在語言處理過程中能産生不同種類的延遲效應。例如,在大腦層面上,我們已經發現了語言處理可能受輸入呈現速率的影響。[VAG 12]中調查了這種現象,聲稱當呈現速率增加到比處理速度快時,可懂度可能會崩潰(見圖1-1)。這是因為語言網絡的工作時間長短是恒定的:作者稱,皮層處理速度受到嚴格限制,不易加速。是以當呈現速率增加時,處理速度保持恒定,可能會突然出現阻塞情況。具體說來,這意味着當呈現速率提高時,由于處理速度保持恒定,是以必須緩沖部分輸入流。實驗表明,在可懂度崩潰之前,速率可以提高到40%。這種情況發生在緩沖區飽和的時候,大腦皮層的高階語言區域(據說反映了可懂度[FRI 10])的激活突然下降,表明輸入信号變得不可了解,進而在皮層水準揭示了這種情況。

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

這個模型表明當單詞以較慢的速率輸入時能夠被及時處理,在此情況下,處理速度就是感官系統的處理速度。然而當速率增加、單詞呈現得更快時,處理速度達到極限,不再能夠實時地處理單詞。在這種情況下,單詞會存儲在緩沖區中,然後在認知資源再次可用時,大腦會以先進先出的方式從緩沖區中檢索單詞。當呈現速率高于處理速度時,要存儲的單詞的數量會持續增加。當達到緩沖區的最大容量時,會發生鎖定,并且導緻可懂度崩潰。

除了這種緩沖機制之外,還有其他證據證明輸入可能不是逐字逐句線性處理的,而是周期性的。這個概念意味着即使在正常情況(即沒有任何可懂度問題)下,對于基本單元的解釋也隻是周期性地進行,即在處理基本單元之前先進行存儲。一些研究調查了這一現象。在皮層水準上,對刺激強度的波動分析揭示了在短語和句子出現之後存在特定活動(譜峰)[DIN 16]。閱讀過程中的眼球運動也存在同類型的效應:當剛剛讀到的詞是短語或者句子的結束時可以觀察到存在更長時間的注視。該結尾效應(wrap-up effect)[WAR 09]以及如前所述的在皮層水準上時間延遲的存在,證明了延遲機制的存在,即基本元素被臨時存儲,并且在得到足夠資訊時才觸發整合操作。

在語義層面,其他證據也表明語言處理,或者至少語言解釋,并不是嚴格遞增的。相關實驗表明,語言了解可能僅停留在淺層次:[ROM 13]表明,在習語的語境中,對單詞的處理可能完全不進行,取而代之的是習語層面的全局處理。這種效應已經在皮層上表現出來:當在習語中引入語義違規時,硬語義違規(hard semantic violation)和軟語義違規(soft semantic violation)之間沒有差別(但是在非習語語境中情況并非如此);在某些情況下,處理一個單詞并不意味着需要将其內建到一種結構中,而是僅在掃描單詞時進行簡單淺處理,而不做任何解釋。在閱讀相關的研究中也進行了同樣的觀察:根據任務的不同(如期望非常簡單地了解問題時),讀者可能會進行淺處理[SWE 08]。能夠揭示這一效應的事實是,對于歧義句的閱讀速度會更快,這意味着對它沒有進行解析,語義表示仍然不夠明确。這種處理層次的變化取決于語境:當語用和語義語境承載了足夠的資訊時,會使得整個處理機制失效,解釋變得可預測。在注意力層次上,這個現象在[AST 09]中被證明,表明對于不同的時間視窗配置設定的注意力資源取決于該時間視窗的可預測性:當資訊可預測時,配置設定最少的注意力,相反,當資訊與預期不符時需要配置設定最多的注意力。當聽者使用知覺調節(perceptual accommodation)針對說話者調整自己的聽覺政策的時候,可觀察到相同類型的變化[MAG 07]。

這些觀察符合“足夠好”理論(good-enough theory)[FER 07],即對複雜内容的解釋通常是淺薄和不完整的。該模型表明,解釋隻是在少量相鄰詞的基礎上偶爾進行,全局解釋将被推遲到有足夠的資料時進行。這個架構和它所依賴的證據也證明了這樣一個觀點—語言處理通常不是線性、逐字逐句的。相反,語言處理可以停留在非常淺的層面,并且可以在必要時延遲。

1.3 工作記憶

延遲機制依賴于被稱為短期記憶(short-term memory)的存儲單元,因為該單元可以臨時存儲任何性質的資訊,是以該單元成為認知系統組織的基礎。一般來說,人們認為這種記憶單元主要用于存儲。然而,一種特殊的短期記憶單元稱為工作記憶,也可以用于資訊和某種程度的處理操作。它将作為一個緩沖區,并且其内部存儲的資訊可以被部分結構化。

一些模型[BAD 86, BAD 00]提出了一種架構,其中工作記憶在不同的感覺-運動回路上扮演着監管者的角色,同時也是一個間歇緩沖區。

工作記憶單元(以及一般的短期記憶單元)的一個重要特征是容量有限。在一篇著名的論文中,[MIL 56]将這一限制估計為7個單元這樣一個“神奇”的數量。然而,已經發現存儲在工作記憶中的單元不一定是原子級别的;也可以是被視為單個單元的分組。例如,存儲的元素可以是數字、字母、單詞甚至序列,表明了一個組可以被編碼為單個單元。在這種情況下,工作記憶單元不直接存儲元素集,而是更傾向于存儲一組指針,這些指針指向短期記憶單元中另一(較低級别)部分的元素的位置。這些進階元素類型被稱為語塊(chunk),就語言而言,它一般由一組單詞組成。

工作記憶單元在ACT-R(理性思想的适應性特征,Adaptive Character of Thought-Rational,見[AND 04])等認知架構中占據着中心位置。此模型中,短期記憶資訊(語塊)被存儲在一組緩沖區中。該架構以[BAD 86]中闡述的方式,圍繞着一組由監管系統(生産系統)協調的子產品(手動控制、視覺感覺、問題狀态、控制狀态和陳述性記憶)。每個子產品都與包含一個語塊的緩沖區相關聯,該語塊被定義為包含少量資訊的單元。此外,在這個組織架構中,每個緩沖區隻能包含一個知識單元。

ACT-R已經被應用于語言處理,其中短期記憶單元在程式性和陳述性記憶單元(兩種不同類型的語言知識)之間扮演着接口的角色[LEW 05, REI 11]。緩沖區存儲的是被表示為屬性-值對清單形式的語塊(資訊單元)。語塊存儲在記憶單元中,它們組成一個單元并且可以被整體通路。它們的可通路性取決于激活(activation)程度,進而有助于控制它們在陳述性記憶單元中的檢索。語塊的激活程度由幾個參數決定:自上次檢索到現在的時延、元素相對于語塊的權重,以及元素和語塊之間關系的強度。下面的公式整合了這三個元素來量化對于塊i的激活A:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

在這個公式中,B表示語塊的基本激活強度(其檢索的頻率和最近時間),W表示查詢項相對于語塊i的權重,S表示将每一個查詢項連結到塊的關系的強度。然後我們就可以将語塊與其激活程度相關聯。有趣的是,語塊激活也部分地依賴于上下文:目前語塊與其他元素的關系強度對激活程度有影響,由此可控制其機率以及檢索速度。

實際上,這個架構隐含地實作了延遲評估:包含原子資訊或結構化資訊的基本單元首先被識别,并存儲在不同的緩沖區中。此外,這一發現也提示了檢索的實作方式,即存儲語塊的不同緩沖區不會被實作為堆棧的形式,因為堆棧遵循先進先出(first-in-first-out)的檢索機制。而在我們的架構中,語塊可以以任意順序檢索,而且會優先選擇激活值較高的塊。

ACT-R模型和激活概念為了解困難(comprehension difficulties)的問題提供了解釋。在上一節中,我們已經看到了解困難可能是緩沖區飽和(從計算角度來說,是棧溢出)的結果。由于存儲資訊的可通路性下降,這種困難得到了控制[LEW 05]。這一解釋與前一節中的結論是互通的:處理速度與激活程度相關。具有高激活度的語塊将被快速檢索,進而減少緩沖元素的數量。當大量語塊的激活程度較低時,處理速度會降低,進而導緻緩沖區擁塞。

這個架構中的一個重要問題是工作記憶在程式化操作中的作用,更确切地即要被存儲的不同元素的結構是怎樣的。在某些方法中,工作記憶在整合元素方面起着決定性作用:基本元素(詞彙單元)被組裝成結構化元素,起到激活的作用。在這種組織中,工作記憶成為進行語言分析的場所。這就是在如“了解能力理論”[JUS 92]中提出的:工作記憶起着存儲和處理的雙重作用。在這個理論中,任何層次的元素都可以被存儲和通路,如單詞、短語、主題結構、語用資訊等。然而,很難解釋這種模型如何能夠同時實作延遲效應(作者稱之為“觀望”)和逐漸解釋的增量了解系統。在[VAG 12]等對記憶容量的研究中,提出了一個更簡單的觀點,即記憶單元有一個獨特的輸入緩沖器,其作用僅限于存儲單詞。在我們的研究中,我們采取了一個折中的理論,即緩沖區僅限于存儲,但是可以存儲不同類型的元素,包括如語塊等部分結構化的元素。

1.4 如何識别語塊:分詞操作

語言進行中延遲評估的假設不僅依賴于記憶單元的特定結構,還需要一種機制來識别需要存儲在緩沖區中的元素。是以我們需要解決兩個問題:這些元素的特點是什麼,以及如何識别它們。我們的假設基于一個想法,即在第一階段不做深入和精确的語言分析。如果這樣的話,解釋和描述識别存儲元素的機制必須處在較低的層次。

這些問題與分詞有很大的關聯。給定輸入流(如連續語言/音),可以将哪些類型的元素進行劃分以及如何劃分它們?對于音頻信号而言,一些特定的機制在語音分段中起作用。這方面的許多研究([MAT 05],[GOY 10],[NEW 11],[END 10])展現了來自不同層次的不同影響因素,這些因素特别針對于(但不僅限于)分詞任務,其中包括:

  • 韻律層次(prosodic level):在某些語言中,重音、持續時間和音高資訊與單詞中的特定位置(如初始位置或最終位置)相關聯,進而有助于檢測單詞邊界。
  • 異音層次(allophonic level):音素是可變的,而其實作受到它們在單詞中的位置的影響。
  • 音位層次(phonotactic level):音素出現順序的限制,給出了兩個相鄰音素出現在單詞内部或單詞之間的機率。
  • 統計/分布特性(statistical/distributional property):連續音節之間的過渡機率。

分詞需要滿足多種限制條件,這些不同的限制條件編碼了不同類型的資訊,如語音、音位、詞彙、韻律、句法、語義等(參見[MCQ 10])。然而,這些分詞需要的特征大部分處于較淺的層次,不涉及實際的詞彙通路。從這個角度來看,一些分割機制不依賴于單詞的概念,并且也可以用于除分詞之外的其他任務。這一點非常重要,因為單詞的概念并不總是相關的(因為涉及進階的特征,包括語義特征)。在許多情況下,我們會使用其他類型的分割,這種分割不涉及單詞的概念,而是停留在更大的分段(如韻律單元)的識别上,不進行深入的語言分析。

進一步的,[DEH 15]提出了5種識别序列知識的機制。

  • 轉移和時序知識(transition and timing knowledge):當一個序列的元素(不論其類型是什麼)以一定的速率出現時,因為下一個元素出現的時延是可以估計的,是以可以預測轉移的下一個元素。
  • 分塊(chunking):根據特定的規則,連續的元素可以被分組到相同的單元。語塊簡單定義為一組經常同時出現的連續元素,然後會被編碼為單個單元。
  • 排序知識(ordinal knowledge):一個與時間長度無關的、循環的線性順序,用于識别元素及其位置。
  • 代數模式(algebraic pattern):當若幹元素具有内部正則模式時,可以通過此資訊完成它們的識别。
  • 由符号規則生成的樹狀嵌套結構(nested tree structures generated by symbolic rules):識别複雜結構,将幾個元素聚合成一個特定的元素(通常是短語)。

對于這些序列識别機制(至少是前四個)而言,很重要的一點是,它們适用于任何類型的資訊,并依賴于淺層機制,因為這些識别機制基于對規律和頻率的檢測。當應用于處理語言時,這些機制闡述了如何直接識别音節、模式或組塊。例如,代數模式是基于某個特定結構的,如在下面的口語例子中:“星期一,洗衣,星期二,熨衣服,星期三,休息”,沒有任何句法或進階處理,僅僅依賴“/日期-動作/”(/date-action/)模式的規則,就可以對三個子序列分段并将每個分段內建為一個特定的成分。由此,我們依靠模式識别(pattern identification)這樣一個基本的機制就可能實作識别結構(并且直接了解其含義)的任務。

将本節所描述的機制內建到一起,我們就可以獲得一組強大的參數,并用于将輸入分割為單元。在某些情況下,當特征密度比較高的時候,分割的片段可以是單詞;在其他情況下,分割的片段是更大的單元。例如,韻律中的長中斷(超過200ms)是一個常見的分段限制:兩個這樣的中斷可以作為一個分段的邊界(對應一個韻律單元)。

是以我們可以得出結論,許多基本機制都可以在不涉及深入分析的基礎之下,将讀或者聽到的語言輸入分段。我們的假設是這些片段是最初存儲在緩沖區中的基本單元。存儲單元可能但不一定是單詞。在一般情況下,它們是可以用于後續檢索的字元序列或音素。當聽到對方說話但是沒有了解時,對于聽者會有如下反應:音頻片段會被首先存儲起來,直到擷取到其他來源的資訊(譬如文本)的時候,才會被再次通路并且将分段細化為單詞。

1.5 延遲架構

根據到目前提出的不同元素,我們建議将延遲評估和分塊的概念整合到語言處理組織結構中。這種架構依賴于這樣一種觀點,即對句子的解釋(以及接下來的了解)僅僅在可能的情況下進行,而不是逐字地進行。該機制意味着,在開始任何深度處理之前都需要積累足夠的資訊。這也意味着:第一,識别原子機關不需要進行任何深層解析;第二,存儲元素并在必要時對其進行檢索。

我們在這裡不讨論建立解釋的問題,隻關注積累資訊的這一初級階段。這個組織依賴于一個分成兩階段的過程,第一階段是打包,第二階段是更深入的分析。這種差別讓我們想起了著名的“香腸機”(Sausage Machine)[FRA 78],該架構第一層稱為初步短語包裝器(Preliminary Phrase Packager,PPP),用于識别可能的組(或語塊),而這些組是由6或7個單詞組成的有限大小的視窗,而且每個組對應的短語可以是不完整的。第二層稱為句子結構螢幕(Sentence Structure Supervisor,SSS),它将PPP中生成的單元組成更大的結構。在這個經典的架構中,每個層次都涉及某種句法分析,依賴于文法知識。此外,從經典的構成角度來看,解釋應該從句法結構的識别開始。

我們的方法同樣依賴于兩個階段:

1)分段和存儲。

2)聚合複雜塊。

然而,這個模型對于要建構的單元類型沒有任何先驗知識:它們不一定是短語,并且可以簡單地由輸入的非結構化片段組成。此外,第二階段不是強制性的:對結構的識别和對相應輸入子部分的解釋可以在第一階段完成。

接下來,我們會基于更通用的“盡可能解釋”結構對這兩步進行闡述。

1.5.1 分段和存儲

處理語言輸入(文本或語音)的第一步是将其分割成原子語塊。這裡“原子”意味着沒有建構結構,“語塊”隻是對輸入的切分,其基于低級參數的識别。換句話說,該機制沒有對輸入進行精确的分析,而是立即收集所有可能的資訊。是以,由于資訊的精度級别可以有很大不同,塊可以具有許多不同的類型和級别。一些分段機制非常普遍,甚至是通用的。例如,“互操作單元”(inter-pausal unit)的定義依賴于音頻信号中長中斷的識别,而其得到的語塊是沒有内部組織或子分段的一長串音素。在一些(罕見的)情況下,除了長中斷以外沒有其他任何特征,分塊就會很大并且就這樣存儲。然而在大多數情況下可以獲得更多資訊,進而可以識别更細粒度的語塊,有時甚至可以識别到單詞的粒度。幾種這樣的分段特征具體如下:

  • 韻律輪廓(prosodic contour),重音:音高、停頓、持續時間和重音可能表明了單詞邊界。
  • 音位限制(phonotactic constraint):音素序列的語言依賴限制。違反這種限制就表明可能是邊界。
  • 詞頻單元(lexical frequency unit):在某些情況下,整個單元可能是可預測性非常高的(通常是高頻的單詞、命名實體等),進而可以直接對輸入進行分段。

這些特征經常發生變化,并且不會在所有情況下都導緻分段。當模糊度較高時,在此階段不會進行更進一步的分段。而在相反的情況下,即當模糊度較低時,這些低級特征會導緻單詞的分段。更重要的是,這些特征所對應的資訊是可以直接被評估的,而不需要依賴于其他特性或知識。

在第一階段,原子語塊被存儲在了緩沖區中。我們将在下一節介紹預處理階段的下一步,包括對語塊的聚集過程。

1.5.2 内聚聚集

結構可以被描述為一組互相作用的屬性。這一定義讓我們可以根據這些屬性的數量和它們的權重來設計一種度量方法,參見[BLA 16]。在句法層面,描述一個結構的屬性集可以用一個圖來表示,在圖中節點是單詞,邊表示關系。圖的密度構成了第一種類型的度量:圖的密度較高說明屬性的數量較多,這對應了單詞之間某種類型的内聚力。此外,不同屬性間關系的性質也可以被評估,即一些屬性比其他屬性更重要(這種重要性由它們的權重表示)。高密度的硬屬性(即具有很大權重的屬性)構成了資訊的第二種類型。最後,一些句子可能是非規範的,具有某些違規的屬性(例如,違反一緻性或者線性優先)。将符合的屬性的數量與違規的屬性的數量相比較,就構成了我們用于評估内聚力的最後一種屬性。

我們的假設是,在這三種資訊類型的基礎上定義的内聚力度量,與結構的識别之間存在相關性。換句話說,一個結構就對應于與大量屬性相關聯的一組單詞,并且這些屬性權重很大,而且沒有或幾乎沒有違規。

内聚力度量的第一個參數是在所有的文法屬性當中,可能用于評估給定結構的屬性數量。下圖展示了描述名詞性結構的文法中的屬性集:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

一個類别可能涉及的關系的數量可以通過圖中頂點連接配接的邊數來估計(在圖論中稱為頂點度)。然後,我們通過這個量來定義一個類别的度。在上圖中,我們定義的度如下:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎
帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

在句法分析期間(即已經得到了類别清單),可以将與上面相同類型的評估應用在描述結構的限制圖上,如下例所示:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

每個單詞都涉及一組關系。與文法分析過程相似,一個單詞的度是該單詞對應節點的關聯邊的數量。在這個例子中,有:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎
帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

我們估算内聚力的第一個參數就是對這兩個值的比較:對于給定的單詞,我們根據文法分析可以得到它理論上可能涉及的屬性的數量;根據句法分析,我們又能夠知道這些屬性中有多少得到了有效評估。然後,我們定義完整性比率(completeness ratio),用于表示類别的密度:被驗證的文法關系的數量越多,完整性比率的值越高:

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

除了這個完整性比率之外,限制圖本身的密度也很有意義。在圖論中通過計算邊數和頂點數之間的比率來得到這個值。更精确的定義如下(S是句子的限制圖,E是邊集,V是頂點集):

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

在這個公式中,分子是現有邊的數量,分母是可能的邊的總數(即假設每條邊都連接配接兩個不同的頂點,然後再乘以5,5是不同類型屬性的數量)。這個值可以用于區分稠密圖和稀疏圖。在我們的假設中,稠密的圖與結構相關。

所定義的最後一個參數是更數量化的,并且考慮了屬性的權重。更确切地說,我們已經看到,所有的屬性都可以被滿足或者被違反,是以,我們将标準化滿足度定義如下(其中W?+是滿足的屬性和被違反的屬性W?-的權重之和):

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

最後,可以将内聚值定義為前面三個參數的函數,如下所示(C代表某個結構,GC是其對應的限制圖):

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

注意,密度(density)和滿足度(satisfaction)這兩個參數可以直接被評估,而不依賴于上下文,也不需要知道結構的類型。相反,對完整性(completeness)參數的評估需要知道結構的類型,以便從文法中提取所有可能描述它的屬性。在某種意義上,前兩個參數是基本參數,可以被了解為是對屬性的描述,并且可以自動評估。

内聚力(cohesion)度量為激活(activation)概念提供了一種新的衡量方式。此外,它還提供了一種基于簡單屬性來直接識别結構的方法。最後,它為實作通用文法分析原則提供了明确的理論基礎(通用文法分析原則規定結構或語塊是具有高密度的高權重關系的單詞集合)。這個定義對應于最大化線上處理(Maximize On-line Processing)原則[HAW 03],該原則規定:“在解析X時,人工的分析器傾向于将一組可配置設定給每個項X的屬性最大化。……結構和未被劃分為結構的序列相比,最大的不同可以表示為一個函數,在一個結構S中,相比較于所有可能的屬性數量,該函數的參數是未配置設定或錯配置設定給X的屬性的數量。”

這個原則為我們的語言處理概念提供了一個通用的背景。該機制并不會建立句法結構以用于了解句子,而是會建構一連串的語塊,這些語塊可以基于已有的資訊最大化内聚方程的值。當資訊的密度(或内聚力)達到某個門檻值時,可以将元素分組成唯一的塊,并存儲在工作記憶單元中。當未達到門檻值時,則不會修改緩沖區的狀态,而是會掃描輸入流的下一個新元素。這種通用的解析機制使我們在有不同的資訊源可用時,能通過延遲評估的方式來整合這些資訊源,直到達到某個内聚門檻值。這構成了實作“足夠好”理論的基本處理架構:盡可能解釋。

1.6 結論

了解語言理論上是一個非常複雜的過程,涉及許多不同的資訊源,此外還必須實時完成。幸運的是,在許多情況下,不同的參數會簡化了解過程:可預測性,以及可以直接處理整個輸入段的事實。對于大多數結構而言,含義都是可以直接擷取的,而且可以把結構作為一個整體進行處理。在較低級别,還可以識别輸入的子部分(如模式、韻律單元等),從中可以直接檢索全局資訊。不同的觀察表明,低層次的特征通常可以用于識别全局片段。我們在本章中提出的語言處理架構基于如下原則:不是識别單詞,然後将它們逐漸地內建到要解釋的句法結構中,而是首先識别片段。這些片段可以是任何類型的:音素序列、單詞、詞組等。它們的共同特征是不需要任何深層資訊或加工處理就可以識别這些片段。

一旦識别了片段(稱為語塊),就将它們存儲在緩沖區中,而且不進行任何的解釋。換句話說,解釋機制被延遲(delayed),直到有足夠的資訊可用才進行。當緩沖新塊時,其對緩沖區中現有塊的内聚力估算就算完成了。當不同組塊之間的内聚力(對應于認知結構中的激活概念)達到某個門檻值時,它們會被合并成一個獨特的塊,其在緩沖區中的存儲也會被替換為一個單獨的單元。這種機制使得我們能夠逐漸識别結構并直接擷取其含義。

這種組織結構沒有采用逐字逐句的增量機制,而是實作了“盡可能解釋”原則。它構成了一個架構,可以用于解釋所有已經觀察到的不同延遲和淺層處理機制。

1.7 參考文獻

帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎
帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎
帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎
帶你讀《自然語言處理的認知方法》之一:延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎第1章 延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎

繼續閱讀