![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLxkTYwUDOyMGOjZWZxUmZhFTZ3QjZ5UTZ5UmZjhTM5QTO0EDN5MjZ18CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
自然語言處理一直以來都是比較抽象的,都是直接用詞彙和符号來表達概念。但是使用符号存在一個問題,比如兩個詞,它們的詞性相近但詞形不比對,計算機内部就會認為它們是兩個詞。舉個例子,荷蘭和蘇格蘭這兩個國家名,如果我們在一個語義的空間裡,用詞彙與詞彙組合的方法,把它表示為連續、低維、稠密的向量,就可以計算不同層次的語言單元之間的相似度。這種方法同時也可以被神經網絡直接使用,是這個領域的一個重要的變化。
從詞彙間的組合,到短語、句子,一直到篇章,現在有很多人在做這個事,這和以前的思路是完全不一樣的。
有了這種方法之後,再用深度學習,就帶來了一個很大的轉變。原來我們認為自然語言處理要分成幾個層次,但是就句法分析來說,它是人為定義的層次,那它是不是一定必要的?這裡應該打一個問号。
實際工作中,我們面臨着一個課題——資訊抽取。我之前和一個機關合作,初衷是做句法分析,然後他們在我的基礎上做資訊抽取,互相配合,後來他們發表了一篇論文,與初衷是相悖的,它證明了沒有句法分析,也可以直接做端到端的直接的實體關系抽取,
這很震撼,不是說現在句法分析沒用了,而是我們認為句法分析是人為定義的層次,在端到端的資料量非常充分,可以直接進行資訊抽取時,不用句法分析,也能達到類似的效果。當端到端的資料不充分時,才需要人為劃分層次。