天天看點

自然語言處理發展曆程自我總結

版權聲明:本文為部落客原創文章,未經部落客允許不得轉載。 https://blog.csdn.net/zergskj/article/details/72862480

自然語言處理(NLP)曆史悠久,從上個世紀初,便有人開始提出自然語言相關的規律和假設,但本人閱讀了若幹自然語言相關的書籍後,發現自然語言處理的方法論在長達近1個世紀的時間内并無半點實質上的進展。

自然語言處理的方法體系目前大緻可分為兩個方向:

1.形式化語言處理方向

     這個方向吸引了衆多學者,體系非常龐雜,其中誕生了很多處理主義,但都并未有革命性的變化,基本上屬于盲人摸象,其中就包括了如下理論:範疇文法、語言串分析、語言集合論、有限狀态文法、短語結構文法、線圖分析、漢字結構、左結合、合一運算、依存配價、格文法、詞彙模型……

     不一一列舉了,防止被繞暈,其實都是文字概念上的變化,很多概念都有重複的嫌疑,總結一下,就是基于語言規則的形式化模型,各有各的細微變化,但都沒有從根本上解決問題,用人力可以實作有限狀态機的“有限度的”智能。

2.數字化語言處理方向

     這個方向似乎才是沿着科學的道路在前進,但發展似乎也很慢,主要包括如下理論:機率文法、Bayes動态規劃、HMM、CRF、LSTM、CNN,這些方法将語言看作數字信号,使用機率論的方法對其處理,但也沒有真正實作語義了解。

針對以上兩個方向,我個人認為,數字化語言處理才是正确的,但對形式化語言處理的認識越深,才能更好的設計自然語言處理模型,現階段想要做出自動學習語言并生成語言認知模型還比較困難,但形式化方向上很多先驅提出的算法、語言規律和語言現象,有助于網絡結構和參數的設計。

繼續閱讀