天天看點

DIKW金字塔,AI爬到第幾層了?

圖檔來源@視覺中國

文|腦極體

你可能沒聽說過DIKW金字塔,但你一定曾被按在這座塔的鄙視鍊上摩擦過。

曾有某個遊戲主播形容自己的預判:觀衆隻看到了第二層,想到了第一層,實際上我在第五層。于是,網友們形容一些讓人意想不到的操作,“這波啊,這波是在大氣層”。

這種說法雖然有些戲谑,但還真有點科學道理。

DIKW金字塔,是一個關于人類了解、推理和解釋的層次結構,分别是:資料(原始的事實集合)、資訊(可被分析測量的結構化資料)、知識(需要洞察力和了解力進行學習)、智慧(指導行動)。

站在DIKW金字塔尖的人,相當于全部通關的頂級選手,掌握了資料、整理成資訊、了解為知識、轉化成智慧,才能讓行動如有神助。足智多謀如諸葛亮,錦囊妙計用的那叫一個信手拈來,絕對是“站在大氣層的男人”。

DIKW金字塔适用于人,也适用于AI嗎?答案是肯定的。

如果AI也有鄙視鍊,那麼基于資料的AI,一定會被基于知識的AI碾壓。

這是因為,AI Is A Knowledge Technology,AI就是一種由知識驅動的技術。是以,從初級人工智能向進階人工智能、通用人工智能發展的過程,也是一個攀爬DIKW金字塔的過程。

近年來,AI領域的諸多學術力量、産業力量,從強調“資料出奇迹”的蠻力計算,向着“知識金字塔”的更高層級進發,推動知識計算引領AI應用的未來潮流。

可以說,我們正處于一個向基于知識的AI過渡的關鍵階段。AI已經影響着你我生活的方方面面,是以有必要來聊一聊,AI沿着DIKW金字塔向上攀爬,将會帶來怎樣的變化?

回歸的鐘擺:理性主義的複興

将知識運用在機器智能當中,并不是什麼新鮮事。早在上個世紀,人類就開始了探索知識計算的步伐,并廣泛應用到工作和生活當中。

AI誕生的那一刻起,就是理性主義和經驗主義兩大流派的交相輝映、此消彼長。它們的共同之處,都認為機器智能首先要擁有知識,知識是智能的核心;分歧在于,對于知識的了解和擷取途徑不同。

而伴随着這兩大流派的發展,知識與AI的結合,也就表現為兩種方式。

一種是理性主義的結合,人提供知識,機器負責計算。

理性主義認為人的智能是先天遺傳的,要實作機器智能,就要了解人腦的運作機制,将這個東西總結成知識,再由人來告訴機器怎麼做。

典型應用就是專家系統。

人類專家總結出知識,計算機根據專家系統知識庫進行學習,這種方式可解釋性非常高。從1968年世界上第一個專家系統——化學專家系統DENDRAL研制成功之後,針對某個單一領域、模仿專家進行推理分析的早期專家系統開始流行起來,廣泛應用于工農業、醫療、氣象、交通、軍事等衆多産業計算場景之中。

不過,專家機隻能在一些特定領域發揮作用,建構成本非常高。并且,受限于專家的認知上限,如果人都沒有找到那個知識,或者表述不出來的話,機器就更不可能學會了。

于是從九十年代到現在,另一種AI與知識的結合模式就占據了主流,那就是經驗主義。

由人手工打造一個分類器,開發人員不必提前知道答案,機器可以不依賴那些人類專家描述不出來、“隻可意會不可言傳”的知識,按照自己的運作機制,從資料中來挖掘知識,通過大規模資料訓練出模型參數,表現出超過人類的智能。

最具代表性的就是深度學習。

依靠強大的資料、算力和神經網絡,谷歌大腦可以不需要人類的幫助,在不知道“貓”這個詞的前提下,通過訓練将資料轉化為知識,看過數百萬張圖檔後,自己提煉出貓的基本特性,知道貓是一種毛茸茸的(此處省略一堆形容詞)生物,然後成功在一堆照片中識别出貓。

基于龐大的資料,AI雖然并不真正了解和掌握相關知識,也就是“知其然不知其是以然”,不可能真的取代人類專家,但可以将複雜的模式識别問題分解成更簡單的模式識别問題,在一些特定任務中表現得比人類更好、效率更高,取得了長足的發展。深度學習也被視為經驗主義的高峰,成為推動第三次AI浪潮的核心。

但是,基于資料的AI,和基于知識的AI,還是有本質差別的。著名的莫拉維克悖論,早就指出過這個問題,因為機器無法像人一樣将隐性知識融入思想和行動之中,形成高階智慧,是以成了邏輯的巨人、常識的矮子,在一些困難的問題如下圍棋上能超越人類,但在很簡單的認知問題上,表現反而不如四五歲的人類小孩兒。

而解決思路之一,就是理性主義所推崇的,讓機器能夠如同真正的人類一樣了解知識并進行思考。

就像丘吉在《鐘擺擺得太遠》(A Pendulum Swung Too Far)所預測的那樣,AI已經偏離經驗主義太遠,将來回歸理性主義的速度就會越快,理性主義複興的步伐正在到來。

産業的呼喚:數智化浪潮與知識之光

或許你會認為,經驗主義和理性主義,隻是學術界的流派之争,跟普通人和工業界沒什麼關系。

實際上,在産業智能化的浪潮中,有越來越多的行業群組織,開始呼喚基于知識的AI,這是因為——

模型設計階段,需要基于知識的了解。

我們知道,AI已經開始走出實驗室和象牙塔,走向千行百業,開始與實體世界和生物世界結合,而這些領域的資料并不是全部由1和0所構成。

比如AI預測蛋白質結構,每個蛋白質都不是一個簡單的圖像資料,它的背後是有具體意義的。不同的分子關系如何、怎樣互相作用、靠什麼原理組合在一起等,有一整套生物學邏輯和知識體系支撐的,如果缺乏對藥學知識的了解,用純資料驅動的方法來設計模型,很可能做出來的模型無法發揮效用。

是以,想要AI模型真正能夠在産業端發揮價值,要結合實際工作的機理模型、專家知識等,轉化為AI可了解、可處理、可分析的數學語言。

模型訓練階段,需要基于知識的資料。

在産業AI中,資料中往往存在大量的資訊,也就是沒有或無法被表征的知識,往往展現為專家經驗或師徒傳承。想要訓練出效果更好的産業模型,不僅需要大量、完備的資料,還要能夠精準描述出資料之間的知識關系,這樣才能夠從資料中挖掘出更多有用的知識。

就拿我們日常都會碰到的推薦算法來說,傳統的推薦算法是使用者喜歡什麼就推薦什麼,很容易陷入資訊繭房。而國内某科研團隊,将食品營養科學的知識圖譜與推薦算法相結合,根據使用者回報資料,比如點選量、興趣偏好、身體資料等等,結合健康知識來進行組合搭配與推薦。

基于知識的資料,能夠幫助打造高品質、更懂人性的算法。就拿前面提到的推薦系統來說,相比不斷迎合使用者的算法,提供了一種既滿足口味喜好、又符合健康管理要求的選擇。再設想一下,如果AI能夠将外賣配送員的行為資料與人的常識性知識結合到一起,或許無限擠壓配送時間導緻的内卷困境,也有望被解決了。

模型落地階段,需要基于知識的信任。

AI模型落地應用,在很大程度上取決于其可靠性:一是可信度,結果是否被人所信任,深度學習受限于可解釋性問題,在醫療等專精領域不如人類專家被信任;二是可靠性,能否在被幹擾的情況下也能表現出較好的性能,也就是解決魯棒性問題。

中科院院士、清華大學人工智能研究院院長張钹教授曾提出,在産業落地應用的人工智能,需要符合五個條件:豐富資料或知識、完全資訊、确定性資訊、靜态環境、特定領域或單一任務。這五個條件隻要有一個不滿足,AI産業化落地都非常困難。

而改變困境的思路之一,就是知識計算,讓AI系統能夠讀懂知識、學會常識推理,進而讓模型變得可信任、高可靠。

此前,谷歌為了提高搜尋引擎結果的可信度和說服力,就将NLP與知識圖譜相結合來進行學習。如果搜尋者發現一些文章提到“XX曾在中國工作過”的資訊,這些資訊與知識庫融合在一起,顯示出XX曾為對華貿易委員會工作,而該組織在北京設有辦事處,那麼“XX曾在中國工作過”的可信度就會大大提高。

同樣,如果自動駕駛系統從大規模文本資訊中提取并學習到一些出行常識,比如“大卡車擋住了前方的視線,應該小心一點,說不定突然過來一個人就可能撞到”,對常識性知識的了解無疑會大大增加人們對自動駕駛安全性的信心。

模型應用階段,需要基于知識的計算。

目前産業智能化的一大瓶頸是高成本的算力。龐大的深度神經網絡系統需要大量計算資源來處理複雜任務。一份來自馬薩諸塞大學的研究顯示,常見的幾種大型 AI 模型,訓練過程會排放超過 626000 磅二氧化碳,幾乎是普通汽車壽命周期排放量的五倍。

拉踩一下,人類在思考(也是一種知識計算)時就十分節省能耗,心理學家卡尼曼在《思考,快與慢》中就提出,人腦既可以通過系統2進行較慢的理性思考,也可以經由系統1,基于已經内化的知識,實作無意識的、近似于肌肉記憶的快速運算,大腦能量消耗極少。

未來,打造基于知識的AI模型,如同激活腦區一樣,将成為綠色計算的重要方法,保證産業智能的可持續發展。

不難發現,行業知識與AI計算的結合,既是理論上技術發展的必然階段,也是事實上産業AI化所不可或缺的一步。

作為一種緻用技術,AI隻有真正接納并融合行業知識,讓計算與知識轉變成新時代的生産力,才能凝結出技術的長期價值,推動第三次人工智能浪潮繼續向前奔湧。

艱難的攀爬:從資料層到知識層總共分幾步?

抛開應用條件談技術前景的都是“畫餅”,基于知識的AI同樣少不了前提條件。需要具備至少幾個特征:

1. 知識表征的準确性。

要讓AI了解并利用知識來解決複雜的現實問題,首先需要将這些内容轉化為數學語言,變成AI可解的資料化路徑。

不過,一個AI系統中需要被表示的知識類型有很多,想要全面且準确地表示出來并不容易。

其中,既有容易被表征的陳述性知識,如何做某事的程式性知識;也有不易被描述出來的知識,像是基于某個領域的專家經驗所總結的啟發性知識,就未必全是正确的;以及表示概念關系的結構知識,比如分子和分子的互相作用,目前人類了解得還不夠全面。

知識表征的準确性,将直接影響到機器是否能像人類一樣智能。

2.知識推理的多樣性。

推理能力是人類與其他物種最大的不同,尤其是創造性思維。而知識計算的核心能力正是推理能力,根據現有的表征結構産生相對應的新知識,為産業側提供創造性見解。

完全可以想象這樣一個場景:建立一個龐大的知識庫,儲存着人類完成各種任務所需要的知識, AI不再需要對每一個特定場景、特定資料集進行專門訓練,可以像一個真正的聰慧人類一樣,觸類旁通、舉一反三,輕松地完成推理分析,應對現實世界中各種各樣的複雜任務。

3. 知識擷取的自動化。

建立常識庫并不是件容易的事,也被叫做“AI 的曼哈頓工程”。 尤其是資訊爆炸帶來的海量資料,需要機器接管将資訊轉化為知識的工作,要提高知識擷取的效率,自動化成為必須啃下的一塊硬骨頭。

使用自動化方法來擷取新知識,能夠加快AI知識系統疊代,實作模型的自動更新,縮短建構行業知識圖譜的時間。

4. 知識應用的高效率。

不同行業的知識沉澱、應用、管理方式千差萬别,讓企業自己去搭建一套個性化工具并不現實。是以,知識計算想要落地行業,還需要一系列标準化工具,提供知識搜尋、高性能查詢、可視化分析等功能,提高對知識的挖掘效率。

作為一個新崛起的技術方向,需要有前瞻眼光的平台化科技企業與組織來做好基礎設施建設,并将能力接口向各行各業企開放。

資料和資訊描述世界,知識和智慧了解世界。從這個角度說,AI在DIKW金字塔上的層次越高,能力就越強,距離強人工智能也就越近。這條攀爬之路并不好走,卻是AI産業化和産業AI化的必經之路。

最後的最後,當AI登上金字塔尖的那一刻,獲得真正的智慧,屆時我們已經不能确定,AI會不會是地球上最聰明的物體了。或者說,人類還在智慧的最高層嗎?

正如艾略特在詩中所寫的:“我們在哪裡丢失了知識中的智慧?又在哪裡丢失了資訊中的知識?”(Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?)

曾幾何時,智慧是人類所特有的東西,是人作為萬物之靈長的代表。很多人正在數字時代,越來越少地掌握知識、主動思考,越來越多地沉浸于支離破碎的資料和資訊汪洋之中。

或許,當我們見證AI向金字塔尖攀爬的時候,更重要的是,對人類向金字塔底部的滑落保持一點警醒。

繼續閱讀