天天看點

中國人工智能學會通訊——自然語言處理的十個發展趨勢 趨勢 1: 語義表示——從符号表示到分布表示

中國人工智能學會通訊——自然語言處理的十個發展趨勢 趨勢 1: 語義表示——從符号表示到分布表示
中國人工智能學會通訊——自然語言處理的十個發展趨勢 趨勢 1: 語義表示——從符号表示到分布表示

自然語言處理一直以來都是比較抽象的,都是直接用詞彙和符号來表達概念。但是使用符号存在一個問題,比如兩個詞,它們的詞性相近但詞形不比對,計算機内部就會認為它們是兩個詞。舉個例子,荷蘭和蘇格蘭這兩個國家名,如果我們在一個語義的空間裡,用詞彙與詞彙組合的方法,把它表示為連續、低維、稠密的向量,就可以計算不同層次的語言單元之間的相似度。這種方法同時也可以被神經網絡直接使用,是這個領域的一個重要的變化。

從詞彙間的組合,到短語、句子,一直到篇章,現在有很多人在做這個事,這和以前的思路是完全不一樣的。

有了這種方法之後,再用深度學習,就帶來了一個很大的轉變。原來我們認為自然語言處理要分成幾個層次,但是就句法分析來說,它是人為定義的層次,那它是不是一定必要的?這裡應該打一個問号。

中國人工智能學會通訊——自然語言處理的十個發展趨勢 趨勢 1: 語義表示——從符号表示到分布表示

實際工作中,我們面臨着一個課題——資訊抽取。我之前和一個機關合作,初衷是做句法分析,然後他們在我的基礎上做資訊抽取,互相配合,後來他們發表了一篇論文,與初衷是相悖的,它證明了沒有句法分析,也可以直接做端到端的直接的實體關系抽取,

這很震撼,不是說現在句法分析沒用了,而是我們認為句法分析是人為定義的層次,在端到端的資料量非常充分,可以直接進行資訊抽取時,不用句法分析,也能達到類似的效果。當端到端的資料不充分時,才需要人為劃分層次。

繼續閱讀