天天看點

A Survey on Techniques in NLP--閱讀筆記ABSTRACTINTRODUCTIONOVERVIEW OF PHASESMETHODOLOGIES’ ANALYSIS

論文連結

  • ABSTRACT
  • INTRODUCTION
  • OVERVIEW OF PHASES
    • Language modelling
    • POS tagging
    • Parsing
  • METHODOLOGIES ANALYSIS
    • Language Modelling
    • POS tagging
    • Parsing

ABSTRACT

自然語言處理領域(NLP)是語言學,計算和統計學研究的交彙點。 NLP的主要目标是自動了解人類使用的半結構化語言。本研究主要應用于語義分析,摘要,文本分類等多個領域。

本文描述了自然語言處理的三個階段,即語言模組化,詞類标注和解析,概述了可以使用的方法。

INTRODUCTION

自然語言處理的思想是設計和開發一個可以分析,了解和綜合自然人類語言的計算機系統。自然語言屬于人工智能領域,目标是了解和創造人類語言中的有意義的表達。

多年來開發的語音識别,語言翻譯,資訊檢索,文本摘要等自然語言處理的很多應用。

NLP有幾個階段取決于應用程式,但在這裡,我們将讨論限制在三個階段,即語言模組化,詞類标注和解析。

OVERVIEW OF PHASES

任何NLP應用程式的初步目标是為屬于該語言集的句子生成一個解析樹。為了建立一個解析樹,需要知道句子中所有單詞所屬的類,即一個單詞是形容詞還是動詞或其他。為了正确識别特定單詞所屬的類别,我們依靠語言模型。如下圖:

A Survey on Techniques in NLP--閱讀筆記ABSTRACTINTRODUCTIONOVERVIEW OF PHASESMETHODOLOGIES’ ANALYSIS

請注意,該圖特定于本調查中指定的方法,即統計語言模組化,POS(parts-of-speech,詞類)标記和解析。像神經網絡這樣的某些方法可能不能确認這個時間順序。

在NLP中多次提出自己的頭腦的固有問題之一是模棱兩可的問題。研究人員在處理幾乎每一個階段都必須處理模棱兩可的問題。例如,在POS标簽中,考慮“可以”這個詞:

  • 它可以被分類為一個模态動詞,因為它是一種能夠做某事的能力,
  • 也可以被歸類為一個名詞,因為它可以是一個容器來容納某物。

曆史上,語言處理應用程式通過建立基于規則的軟體來檢查句子的結構,以檢視它是否符合指定的結構。一旦規則變多之前的互相作用就變得複雜,對大規模資料無用。

最近的方法采用的方法利用了可用于訓練語言模型的海量資料。換句話說,最近的語言處理方法利用資料驅動的方法來達到了解語言的目的。這些資料驅動的政策組成了NLP的統計革命。

Language modelling

語言模組化是制作語言後期階段使用的語言的機率模型的藝術。 這個模型在統計上是嚴格統計的,它忽略了句子的基本含義,并着重于發展特定語言的機率分布。

POS tagging

詞性标注是詞語在其上下文中分類的過程。 它使用前一節中建構的機率模型以及其他參數将單詞分類到其類中。

Parsing

解析涉及到構造分析樹來了解句子不同組成部分之間的關系。 這在解決歧義方面尤為重要。 解析模型使用上下文無關文法以及與每個規則相關的機率來導出句子的解析樹。

METHODOLOGIES’ ANALYSIS

Language Modelling

統計語言模型就是語言中所有可能的句子 S 的機率分布,即統計語言模組化隻計算句子的機率分布,而不考慮句子的語義。

有許多方法可以模拟語言,如:

  • n-gram模型;
  • 決策樹模型;
  • 語言激勵模型;
  • 指數模型;
  • 自适應模型。

在這裡介紹如何在語言模組化工作中的n-gram模型。 N-gram模型是語言模組化過程的主要部分,也是語音識别系統中使用最廣泛的模型。

N-gram模型基于隐藏的馬爾可夫鍊順序。 馬爾可夫鍊與條件機率相似,但其假設值根據馬爾科夫鍊的順序變化。

考慮可以取值x1,x2和 x3 的随機變量 X1,X2,X3 。 X1,X2,X3 取 x1,x2 和 x3 的機率由下式給出:

P(X1=x1,X2=x3,X2=x3)=P(X1=x1∣X2=x2,X3=x3).P(X2=x2∣X3=x3).P(X3=x3)

随着一級馬爾可夫假設,它成為一進制模型,馬氏假設為二級,它成為二進制模型。 n-gram模型以前面的條件為條件。

一個二進制模型如下

P(Xi=xi)=∑i=2nP(Xi=xi∣Xi−1=xi−1)

具體而言,無論何時對一種語言進行模組化,在一個二進制模型中,都會調整一個特定詞語出現在前一個詞所在位置的機率。 是以,要确定最大可能的單詞發生,例如前一個單詞是“the”。

使用訓練資料建立表格,并記錄所有的單詞與前一個單詞具有相關聯的機率。 可以通過查找這個表來推斷出跟随的最可能的單詞是 X 。

但當測試集沒有出現訓練集的一個單詞,就會出現問題,某些類别的平滑技術是以被應用。

語言模型用一種稱為“困惑(perplexity)”的度量來評估。 困惑的表達由下式給出:

H=−∑DP(D).logPM(D)

其中H表示模型的熵(語言樣本D的機率的組合)。

這裡,表示語言樣本D新句子樣本的機率,表示D表示模型中語言的機率。

POS tagging

詞性标注是解析任務的先導任務。這個短語的含義是句子中的一個單詞被标記或标注了一個詞性。更具體地說,POS是根據上下文為句子中的每個詞配置設定詞彙類标記的過程。

配置設定給每個單詞的詞彙類是名詞,代詞,形容詞,動詞等類型。

廣義上有兩種方法,即基于規則和随機的:

  • 基于規則的方法使用手寫消歧規則的大資料庫,考慮語素排序和上下文資訊。基于規則的标記器使用語言規則将正确的标簽配置設定給句子或檔案中的單詞,例如。動詞識别規則,名詞識别規則,代詞識别規則,形容詞識别規則。由于手動編寫的規則,基于規則的标記器是複雜和耗時的,是以随機方法優于基于規則。

統計方法主要分為三個部分,即HMM(生成模型),最大熵和條件随機場。

對于詞性标注,最常用的算法是維特比算法,同時考慮HMM。維特比算法建立在動态規劃和語言機率模型的原理上。

Parsing

解析的一個例子是分析樹的生成,顯示了句子不同組成部分之間的關​​系。作為一個例子,考慮這個句子,約翰擊球。在這裡,為了建立不同單詞之間的關系,我們需要一個解析樹來為我們做這個。一個解析樹就是這樣做的,如下圖所示。

解析不是那麼簡單,因為我們使用的語言有一個固有的模糊的文法。這會導緻不同的分析樹,可能意味着不同的事情。舉個例子,考慮一個句子,“Happy cats and dogs live on the farm.”。如圖所示,我們可以有兩個有着鮮明含義的解析樹:

A Survey on Techniques in NLP--閱讀筆記ABSTRACTINTRODUCTIONOVERVIEW OF PHASESMETHODOLOGIES’ ANALYSIS

表示:快樂的貓和普通的狗都住在農場裡。

A Survey on Techniques in NLP--閱讀筆記ABSTRACTINTRODUCTIONOVERVIEW OF PHASESMETHODOLOGIES’ ANALYSIS

表示:快樂的貓和快樂的狗都住在農場裡。

由于這種含糊不清,意義的變化,是以解析旨在消除或至少減少模糊文法造成的歧義。

解析有各種方法可供使用,這裡深入研究Michael Collins提出的最新方法之一。

詞彙化的解析器由一組具有與每個文法規則相關的機率的上下文無關文法規則給出。 這是它與機率上下文無關文法模型的相似之處。 除了這些文法機率規則之外,詞彙化的PCFG也具有與每個規則相關的頭部,這些規則對上(父)節點具有詞彙化的含義。

這個擴充的主要優點是在解析一個句子時保留了詞彙化的資訊,是以短語的附加比PCFG更容易執行。 更正式地說,一個詞彙化的PCFG由一個由非終端,終端,生産規則,起始狀态組成的文法給出。

每條規則都有一個與其相關的機率,并且是由父節點提供的。

繼續閱讀