當 AI 在某一個單點任務上的表現接近或者超越人類的時候,就會給行業帶來巨大的商機。在視覺分類、檢索、比對、目标檢測等各項任務上,随着相關算法越來越準确,業界也開始在大量商業場景中嘗試這些技術
深度學習在計算機視覺、語音識别等感覺智能技術上率先取得成功并不是偶然。深度學習秉承連接配接主義學派的範式,相較傳統統計機器學習技術的最大進化在于其利用了高于統計方法數個數量級的參數和極其複雜的函數組合,通過引入各種非線性和多層級感覺能力,構成了遠強于統計機器學習模型的拟合能力。ResNet-152 的參數量已經達到六千萬的級别,GPT-2.0 的參數量達到了驚人的 15 億。而其他上億甚至數億級别的網絡更是數不勝數。如此複雜的模型對資料的拟合能力達到了前所未有的水準,但是同時也極大提高了過拟合的風險。這對資料提出了極高的要求。訓練資料的數量、次元、采樣均衡度、單條資料本身的稠密度(非0、不稀疏的程度),都需要達到極高的水準,才能将過拟合現象降低到可控範圍。
視覺資訊(圖像、視訊)恰好是這樣一類自然連續信号:一張圖檔通常就有數百萬甚至上千萬像素,而且每個像素上通常都有顔色,資料量大、資料的表示稠密、備援度也高。往往在丢失大量直接視覺信号的情況下,人還能迅速了解圖檔的語義資訊,就是因為自然連續信号,如圖像中的場景和物體往往具有視覺、結構和語義上的共性。一個 30MB 的位圖圖檔能被壓縮到 2MB 而讓人眼基本無法感覺差別;一個 30MB 的 wave 音頻檔案被壓縮到 3MB 的 MP3 還能基本保持主要旋律和聽感,都是因為這類自然連續信号中存在大量不易被人的感官所感覺的備援。
視覺資訊這種的豐富和備援度,讓深度神經網絡得以從監督信号中一層層提煉、一層層感覺,最終學會部分判斷邏輯。深度神經網絡在感覺智能階段中在視覺任務和語音任務上的成功,離不開視覺、語音信号自身的這種資料特點

今天,屬于感覺智能的視覺和語音應用已經全面開花,但屬于認知智能的自然語言處理卻發展滞後。這種發展狀态與自然語言處理技術中的資料特征也有密不可分的關系。
相對于圖檔、語音給出的直接信号,文字是一種高階抽象離散信号。較之圖檔中的一個像素,文本中一個單元資訊密度更大、備援度更低,往往組成句子的每一個單詞、加上單詞出現的順序,才能正确表達出完整的意思。如何利用單個文本元素(字/詞)的意思,以及如何利用語句中的順序資訊,是近年來自然語言處理和文本分析技術的主要探索脈絡
2013 年,詞的分布式向量表示(Distributed Representation)出現之前,如何在計算機中高效表示單個字/詞是難以逾越的第一個坎。在隻能用One-hot向量來表示字/詞的年代,兩個近義詞的表示之間的關系卻完全獨立,語義相似度無法計算;上表示一個字/詞所需的上萬維向量中隻有一個次元為1,其他次元都為0,稀疏度極高。面對這類信号,深度神經網絡這類複雜的模型所擅長的化繁為簡的抽象、提煉、總結能力便束手無策,因為輸入信号已經極簡到了連最基礎的自我表示都難以做到。
而分布式詞向量将語言的特征表示向前推進了一大步。分布式詞向量提出了一個合理的假設:兩個詞的相似度,可以由他們在多個句子中各自的上下文的相似度去度量,而上下文相似的兩個詞會在向量空間中由兩個接近的向量來表示。這種做法部分賦予了詞向量“語義”,是以我們不必再讓機器去查百科全書告訴我們“蘋果”的近義詞是“梨子”,而是直接從大量的網際網路語料中去學習,原來“蘋果”的近義詞也可以是“三星”、“華為”。因為人們常常會說“我購買了一個蘋果手機”,也常說“我購買了一個三星手機”,模型會敏銳的學習到“蘋果”和“三星”在大量語料中出現時其上下文高度相似,因而認為兩個詞相似。分布式詞向量讓無語義、極稀疏的 One-hot 向量壽終正寝,而為大家提供了嵌入語義資訊、稠密的特征表示,這才使得深度神經網絡在自然語言處理和文本分析上的應用真正變得可能。
捕捉語句中在獨立的詞集合基礎之上、詞序列構成的句子結構資訊也是自然語言處理和文本分析中的一個主要方向。傳統條件随機場(CRF)考慮了前後相鄰元素和目前元素之間的依賴;長短時記憶網絡模型(LSTM)以一種衰減形式考慮了目前元素之前的元素序列;seq2seq 通過注意力和編解碼的機制使得解碼時的目前元素不光能用上已經解碼完畢的元素序列,還能用上編碼前的序列的完整資訊;近期各類基于 Transformer 結構,如 ELMo 、BERT、GPT-2.0、XLNet,則利用兩階段(基于自編碼的預訓練加基于任務的調優)模式,能夠以自監督的方式更好地利用大規模的無标注語料訓練不同句子結構中詞語之間的關系,并且突破傳統線性序列結構中存在的難以建立長距離、雙向依賴關系的問題,學習到品質更高的中間語言模型,再通過調優就能在文本生成、閱讀了解、文本分類、資訊檢索、序列标注等多個任務上取得目前最為領先的準确率。
為自然語言任務加入“常識”,也是另一個新興重要探索方向,這個方向則與知識圖譜技術緊密結合
就像 BERT、GPT-2.0、XLNet 在兩階段範式上的殊途同歸,我們也認為基礎語言模型在不同任務上可以存在一些不變性,但在不同場景中一定要做特殊語料與任務下的調優與适配
但認知智能在金融、公安、媒體等場景中的變化部分給 AI 廠商帶來的挑戰非常明顯。一個算法往往在不同場景下要利用不同的标注語料去形成不同的模型,一個媒體場景的 10 類新聞分類模型,無法給另一個媒體的 12 類分類體系使用