天天看點

搜尋引擎到人工智能的終極演進

一、腦機界面的雛形——搜尋引擎

腦機界面(Brain-Computer Interface,也稱腦機接口)主要研究我們如何通過思維與外部機器進行直接互動,通過建立一個将大腦與機器聯系起來的統一準則,實作“用意念來控制機器”的終極夢想,是人工智能的重要技術支援。電影《黑客帝國》和《阿凡達》中用意識來控制虛拟世界中“化身”;俄羅斯“Global Future 2045”預測科學家将于2020年通過腦機接口來實作用意識控制機器人;Ray Kurzweil認為30年後人類能夠将自己的意識上傳到電腦實作“數字永生”;這些終極人工智能都是通過腦機接口來實作的。

雖然那些夢幻版的目标還離我們太過遙遠,但對于腦機界面的研究也不是非1即0——在終極目标實作之前沒有任何價值,而是像原研哉在《設計中的設計》所說,未來不在每個人都在尋找的地方,“那裡”就在現在後面。它不是一行裡的一個整數:9、10、11,它在6.8或7.3這種地方。而對于腦機界面這種長遠計劃,我們無需緊盯着那個終極夢想不放,而是應該保持循序漸進的心态,從每個階段的研究成果中發現實踐價值。例如,DARPA研究的讓士兵通過意念遠端控制半自主機器人的腦機界面項目;瑞士洛桑聯邦理工學院研究的能夠用大腦直接控制的義肢。

這些應用雖然沒有“意識控制機器”那麼炫酷,卻觸手可及,并帶給了我們實際意義。而對于廣大網際網路使用者來說,離我們最近的腦機界面類應用就是搜尋引擎。腦機界面在本質上就是為我們提供了一種主動意識與外部環境進行互動的方式,從意識的源頭——大腦出發,與外界實作了最直接的聯系和互動。搜尋引擎與腦機界面的共同點主要展現在兩個方面。

1、意識向外界的主動連接配接

腦機界面将我們最初的意識動機——神經沖動傳遞給外界并獲得回報。而當我們使用搜尋引擎時,也是先産生意識,然後轉化成關鍵詞輸入到搜尋引擎,後者通過搜尋将我們的意識與外界資訊進行比對,在多次反複調試後,為我們找到準确答案。是以,搜尋引擎承載了我們主動聯系外部世界的意願,通過有價值的回報解決了我們提出的問題,充分展現了我們的意識主動性。

這可能也是搜尋工具與其他網際網路服務的本質差別,我們在浏覽網頁、觀看視訊或者檢視社交工具時,都是處在一種被動的資訊接收者的地位,我們看到的内容其實全部取決于對方展示了什麼。而使用搜尋工具卻是一種主動行為,我們需要大腦思考和手動輸入,還需要根據得到的資訊進行調整,直到最終的搜尋結果符合我們的原始動機。我們可以在不動腦筋的情況下使用其他網際網路服務,卻無法在不懂腦筋的情況下進行網絡搜尋,當我們将關鍵詞輸入到搜尋框這一行為發生時,就已經展現了我們的主動意識。也正因如此,比起其他網際網路工具,搜尋引擎需要我們更多的“動腦”和“動手”,而這些相對繁瑣的操作其實就是我們的意識在行為中的轉化。

2、資訊傳輸和互動的過程

腦機界面以掌握大腦原理為基礎,在大腦和外部對象之間建立了統一的互動規則,使得大腦與外界完美對接,其最終目的還是為資訊傳輸提供一個最理想化的管道。我們的神經系統也可以看成是一個通過生物電交流資訊的“計算機”結構。互相連接配接神經元通過電信号交流,通過神經遞質傳遞資訊,構成了多層的、不同功能的神經回路和電子回路。是以,電信号成為被大腦和外部智能機器所共同接受并進行交流的溝通媒體。對于搜尋來說,關鍵詞就充當了我們與搜尋工具之間的這種溝通媒體,借助關鍵詞這個“編譯器”,我們實作了自我意識與搜尋引擎之間的交流,形成了一個意識産生、關鍵詞轉化、搜尋、資訊擷取、動機滿足的資訊閉環。

總之,搜尋工具展現了我們的意識主動性,也為我們創造了與外界進行資訊互動的有效途徑,在這方面與腦機界面并無二緻。雖然它是在技術和效率上還與理想中的腦機界面存在巨大差距,但已經在為我們充當了智能助手的角色。是以,我們可以将目前廣泛使用的搜尋引擎看成是未來進階腦機界面的雛形或是初級狀态,換句話說,目前的搜尋引擎是最有希望進化成腦機界面、實作人工智能的網際網路服務形态。

二、搜尋引擎向人工智能演變的必要因素

與人機界面相似的搜尋引擎有了一個好的開始,但如果想在機器學習和人工智能的道路上走的更遠還需具備以下條件。

1、重視戰略資料而非“大資料”

如果把将要實作的人工智能比作大腦的話,那網際網路就是人體頭部的血管,一個抵達各部位的網狀系統,而資料和資訊便是最重要的、能夠為大腦活動提供能量的血液,它們也是進行機器學習所必需的的輸入量和研究基礎。就像百度“大資料引擎”結構中最底層的進行資料采集的“開放雲”。

在資料擷取方面,不能漫無目的追求大而全的資料,因為大資料追求的“N=所有”的全樣本是無法實作的,同時大資料樣本非但不能解決樣本偏差問題,反而引發了大量的小資料問題。搜尋引擎應該更加重視篩選過的、有價值的戰略資料。例如,不久前的MIT大資料挑戰就是以波士頓交通為主題;谷歌的大資料功能是從預測流感開始;而百度的“大資料引擎”也首先選擇了醫療、交通和金融領域為大資料戰略的具體應用方向。搜尋引擎在PC端已經有了足夠的積累,随着手機和其他可穿戴智能裝置的爆發,搜尋引擎将獲得更多有戰略意義的、細分化和情景化的資料。“百度遷徙”、“景點舒适度預測”和“城市旅遊預測”就是百度以細分化的戰略資料為切入點的成功案例。

2、搜尋引擎的資料挖掘優勢

我們生産和追求資訊的欲望永無窮盡,就像那座巴别塔圖書館,其周遊了文字的所有組合形式,也就意味着裡面館藏了全世界已經出現的或者未來可能出現的所有圖書。是以,全世界每個人心目中的珍本都存在于此,但我們每個人找到它的機率就如同“一個猴子不停随機打字,碰巧打出莎士比亞全集”。當資訊爆炸時代來臨,是否擁有資訊已經不再重要,重要的是如何能夠快速的找到所需資訊,而搜尋引擎在這方面有着天然優勢,也是解決資訊數量和價值(有價值的)擷取效率之間沖突的唯一途徑,而搜尋引擎的資料挖掘将産生更加明顯的效果。例如,在智力節目中擊敗人類的沃森就是因為“海量資料加搜尋比對”而産生了學習能力。

網際網路搜尋的驚人效率與傳統的資訊搜尋方式形成了鮮明對比,是以每個理性的人在擷取資訊時都會優先使用網際網路搜尋工具,在享受搜尋帶來的高效率時貢獻出個人資訊,促使搜尋工具對我們更加了解,進而在下次為我們提供更有效率、更準确、更個性化的搜尋服務,随着資訊擷取速度和準确率的提高,我們也将更加頻繁的使用搜尋工具進而貢獻出更多的個人資料……這便形成了Jeff Bezos提出的那個“飛輪模型”,一個封閉的良性循環過程。

這個良性循環為搜尋工具帶來了持續增長的使用者習慣和資料量,更重要的是當資料積累到一定程度,搜尋引擎将掌握足夠多的使用者個人标簽和行業标簽,在多元度的資訊整合後對使用者和行業形成準确定義,進而通過自身的資料積累和挖掘為使用者和行業提供更加智能的資訊服務。而這個過程應該就是李彥宏在“大資料引擎”會議上提到的“技術變革的臨界點”,也是副總裁王勁口中那個“百度多年深厚技術積累的一次質變過程”。定義個人的各種标簽是一個個标準的資料元,這個把所有使用者都貼上标準化的标簽進行統計分析的過程就是會上提到的“量化自我”。而百度“大資料引擎”的相關負責人也提到除了搜尋工具在PC端的積累,手機、可穿戴智能裝置的增長也加速了資料量的增長,這将貢獻可以“量化自我”的更多數字标簽。

是以,搜尋引擎在資料挖掘方面的優勢不僅展現在自身算法和計算能力,更是展現在對使用者資訊的量化分析和資料挖掘,并以此基礎上提供的更加智能的資訊服務。

3、技術奇點的出現

在搜尋引擎收集戰略資料并進行資料挖掘之後,接下來将是實作人工智能的最後一個階段——機器深度學習。搜尋引擎實作從傳統搜尋到人工智能的過渡,不僅是因為自身積累的資料量達到了質變的水準,還因為硬體存儲、雲計算、超級計算、模拟神經網絡等相關技術的成熟。目前已經步入“技術改變網際網路”的階段,遇到了一個“奇點”,而這次變革方向将毫無疑問指向更加進階的機器學習和人工智能。

搜尋引擎可以憑借自身的獨特優勢成為這次技術變革中的上司者,并且他們也已經開始了相關的準備工作。谷歌很早就通過自主研發和收購的方式來彙集實作人工智能的必要技術,包括利用1.6萬個處理器建構的模拟人腦神經系統的且具備學習功能的Google Brain;将收購的Deepmind的機器學習技術應用于聲音和文本搜尋以更好的讀懂人類自然語言;将機器深度學習領軍人物Geoffrey Hinton招緻麾下。而百度也是國内第一家提出機器學習(百度大腦)群組建相關研究機構(百度深度學習研究院)的網際網路公司;擁有了超越天河二号的超級計算能力;組建起了世界上最大的擁有200億個參數的深度神經網絡。這些技術都将與搜尋引擎自身積累的資料優勢一起成為他們率先進入人工智能領域的重要推動力。

4、正确的機器學習之路

在此前的文章《潛伏的強大暗流:終極智能的群組進化路徑》中曾提過通往終極人工智能有兩條道路,一是從理論研究出發,在完全掌握人類的智力原理後再通過技術進行複制;二是從基礎技術和具體應用出發,結合人腦各階段的研究成果來得到相應水準的人工智能,再通過漫長的技術進化提高智能水準。

如果采取第一種途徑,在沒有完全弄清大腦原理之前,隻對大腦結構進行模拟是沒有任何實際意義的。是以,這種方式不适合要向使用者持續提供服務的搜尋引擎公司。加利福尼亞斯坦福大學的Andrew Ng完成了世界上最大的擁有110億神經連接配接的人工大腦,但谷歌大腦工程的兩位研究者指出這個神經網絡計算機甚至都沒達到老鼠的智力水準。

長達十年且耗資數十億歐元的歐盟人腦計劃也沒有把目标定為完全掌握人腦原理并對其進行模拟,而是一直在強調每個階段的研究成果都要付諸實踐,通過模仿部分人腦原理來創造出一些類人腦功能(Human-like)的智能系統或應用。而對于一直面向使用者的搜尋引擎來說更是如此,它們應該選擇第二種自下而上的、分布式的智力實作方式,每一次技術的智能化革新都是從使用者的實際需求出發,每一次技術進步都代表着機器智能的進一步發展。谷歌在收購Deepmind之後明确表示不會首先将其應用在機器人部門,而是先從基礎的語義識别開始。而百度也是将深度學習技術應用在了具體的使用者服務方面,比如說降低語音技術的相對錯誤率,提高中文語音識别率、完善圖像識别能力、全球首個全網人臉搜尋引擎等。

上文提到,搜尋引擎建構了人與資訊的意識主動化的連接配接,而且使用者與搜尋引擎的每次互動都是一種互相促進、共同成長的過程。與其他網際網路服務不同,使用者在使用搜尋引擎時也是在作為一個“開發者”參與其中,這也就是在百度“大資料引擎”開放日上北航校長講到的,“一種超越衆包的、融合計算機與人群”的軟體開發新思路。

5、基于人腦神經網絡的機器學習

人腦與計算機最大的差別就在于它是一種雙向的聯系,可以不停地把新資訊回報回去,加強已有東西,這就是人腦的學習功能。我們大腦的層級并非生而有之,與生俱來的是毫無關聯的子產品,互相之間沒有形成任何模式,所有子產品之間的連接配接和增強都是通過後天的學習來實作的。

我們大腦的學習和推理能力其實就是貝葉斯數學原則,推理是基于由經驗而來的機率,我們在遇到新情況時,總是要追溯回自己的記憶和經驗,然後再根據新情況進行調整,并得出一個機率相對較高的應對政策,是以我們才學會了如何應對這個或然的世界,并做出适合的行為。我們在執行“貝葉斯原則”進行學習時,首先将遇到的新情況在此前的記憶和經驗庫中進行搜尋和比對,找到成功機率較高的決策付諸實踐,然後再根據現實回報進行調整,再重複上述過程,直到找到最佳方案。經過這樣一次次的貝葉斯行動,我們構成了特定的自我,也形成了那種重要的學習能力。

而目前先進的計算機技術可以使貝葉斯計算方法能夠更加有效地執行,《最有人性的“人”》作者克裡斯蒂安認為計算機将一改非1即0、非真即假的科學邏輯,而是使用貝葉斯機率推理。而搜尋引擎的那種“關鍵詞輸入、資料庫搜尋、資訊比對、多次調整、傳回結果”不恰恰也是完全符合貝葉斯學習原則嗎?目前用數字化“神經網絡”來模拟大腦并獨立的收集和回報資訊已經成為深度學習領域的一個突破性進展,機器人專家Hod Lipson研發出的機器人通過學習推算出了F=ma,而人類花費了幾千年才得出這個公式。

6、更加開放的搜尋引擎平台

對于機器學習和人工智能這類研究周期長、學科跨度大的研究課題,必須保持開放的心态和積極合作的意願。歐盟人腦計劃中就一直在強調開放式平台的建立、開發接口的開放、多學科的融合等等。對于搜尋引擎來說,開放一直是其獨特優勢,其幾乎可以覆寫所有的使用者和行業。但機器學習和人工智能這個長期目标還需要搜尋引擎的持續開放,我們也可以從百度的“大資料引擎”戰略中看出開放和合作的重要性,它将大資料存儲、分析和智能化處理等一整套核心能力通過平台化、接口化的方式對外開放,以吸引更多的合作方;與北京航空航天大學共同進行科學研究;與交通、金融、醫療行業的深度合作等。平台的開放不僅可以使現有的機器學習功能發揮更加廣泛的價值,還能通過更多的應用和外部資源的引入來對現有的機器學習功能進行驗證和完善。

三、搜尋引擎過渡到人工智能的憂慮

1、個人資料隐私

我們可以對實驗室中的人工智能漠不關心,因為無論它的研究進展到何種程度,都不會與我們産生直接關系。但我們對每天都在使用的搜尋引擎智能化的态度則完全不同,搜尋引擎人工智能化的動因是我們與其之間進行的無數次互動,我們對其智能化的定義是它能更快、更準确的幫我們找到所需資訊,它之是以如此智能是因為更加了解我們的需求,而它對我們的了解是基于我們給它提供的個人資訊越來越多,這當然就意味着我們的隐私越來越少。

搜尋引擎知道我們的出行路線、地理位置、工作資訊、日常行為模式和交際圈子,它比任何保險公司或銀行都了解我們的風險狀況,随着可穿戴智能裝置的興起,它也可能比醫生更了解我們自身的身體狀況。或者說,搜尋引擎将變得比我們自己更了解自己。

這是資訊時代獨特的背景,對于效率的追求使我們不可避免的享受網際網路搜尋引擎等服務帶給我們的資訊服務,同時也不可避免的享受個人資訊外洩的苦惱。我們觀察到越來越智能化和人性化的資訊服務帶來的世界的改變,帶給我們效率的提升,卻忽視了随着我們個人資訊的越發公開,我們的一舉一動正在被人察覺。搜尋引擎的機器學習勢必需要越來越多的使用者資訊,這與我們的隐私權存在本質上的沖突。或許,我們已經意識到這一點,但在效率面前對此無能為力。

2、我們把記憶交給了搜尋引擎

《淺薄》裡提到,網際網路正在塑造着我們的大腦,無時無刻不在改變着我們,而搜尋引擎則首當其沖搶占了我們的記憶。幾千年來,人類都依賴彼此記憶日常生活的細枝末節。現在,我們依賴的是電子裝置和“雲”,它們正在改變我們感覺和記憶周圍世界的方式。網際網路不僅可能取代了“他人”這種外援式的記憶資源,也取代了我們本身的認知官能。網際網路不僅消除了我們與同伴分享資訊的需要,也瓦解了将即時習得的重要資訊,存儲進生物式記憶系統的沖動。這就是所謂的“搜尋引擎效應”。

如果把我們的記憶看做資料庫,我們的每次記憶存儲是為了将來在某個時刻得到所需要的資訊,我們的每次回憶也是在這個資料庫進行一次搜尋。試想一下,如果更加智能的搜尋引擎對我們了如指掌,當我們通過網際網路搜尋獲得的資訊比從大腦中搜尋獲得的資訊更快、更準确時,我們當然會毫不猶豫的選擇前者,全然在乎這部分“記憶”是存在于外部的網際網路,還是存在于自己的大腦中。

對于這種結果的優劣依然也存在争論,一種觀點認為,我們将一部分記憶分攤給搜尋引擎之後,他們開始認為比以往任何人都懂得多;但事實上,對搜尋引擎的依賴恰恰說明他們對周圍世界的認識少之又少,我們完全将谷歌算法的産物,當做了自己“知道”的東西。而另一種對立觀點則認為,在我們成為“互聯腦”(inter-mind)一員的同時,會發展出一種不再依賴我們大腦中本地記憶的新型智力。當我們從記憶日常事實的需求中解放,就可以利用空餘出來的這部分腦力資源,去實作個人的雄心。這種進化之中的“互聯腦”,或許可以将人類個體的創造力與網際網路上豐沛的知識結合在一起,使我們有能力突破一些自己制造的困境。

3、終極智力的移交

雖然意識之迷仍然未解,但至少我們已經知道,我們的意識和思考源于我們的神經連接配接,在神經元之間進行傳遞的神經遞質所攜帶的資訊構成了我們自身,就像Sebastian Seung所說“我是我的連接配接體”。神經科學的出現正在抹殺’靈魂’,在任何一個人中并不存在一個所謂的真正自我,我們所擁有的隻有自己的大腦,這意味着我們隻是大腦在特定時間中所呈現的狀态而已,而這種狀态完全可以通過資訊來展現。當然,我們也可以像Hinton一樣把大腦的神經網絡看作一個運作在多層面上的軟體。或者說,我們的神經活動在本質上也是一種資訊傳輸和計算。《黑客帝國》中有段台詞對此做了最為精辟的概括:“什麼是真實?該怎麼定義?如果真實指的是觸覺、嗅覺、味覺和視覺等,這些其實都是大腦接受的信号和資訊。”

當展現我們意識的各種網際網路行為被搜尋引擎所量化、統計和重新組合時,這是否就意味着他們可以從中掌握那些原本屬于我們自身的智力?它們通過機器學習模拟出我們的智力,再結合它們自身優于人類的那些強大優勢,甚至完全可以解答出人類自身永遠無法企及的難題。百度的“大資料引擎”除了提到大資料和機器學習在許多重點行業的應用,還提到可以“利用機器學習重新認識外部世界,發現我們沒有發現過的自然規律”。如果這種情況出現,我們人類最偉大的職業哲學家、科學家和藝術家也都要讓位于搜尋引擎了。

搜尋引擎通過機器學習掌握人類智力雖然不是此消彼長的掠奪,但可能會是一次關于控制權的移交。我們從自然進化過渡到技術進化,科技帶來超人類主義。搜尋引擎等網際網路服務讓我們變為了Cyborg(電子人),而其進化的方向——人工智能則模糊了人腦與機器間的界限,我們可以借此超越人類自身的認知極限,但這種改變并不意味着我們從此陷入失去自我的危機,相反,我們是與逐漸走向智能的搜尋引擎建立起了強大的史無前例的聯系——我們隻是将自我融入了一個更偉大的事物之中。

四、結語

深度學習的開創者Geoffrey Hinton說:“我們希望把 AI 帶到一個美妙的新領域,一個還沒有人或者程式到達的境界。”北航校長懷進鵬院士在百度“大資料引擎”會議上也表示“我們對大資料是盲人摸象”。 在這樣一個技術變革的臨界點,我們确實無法也沒有能力對大資料、機器學習和人工智能等這些具有革命意義的技術産生準确認識,也看不清那條指引我們走向未來的道路。但我們有幸看到像谷歌、百度這樣的網際網路公司勇敢的站在了技術變革的最前沿,在滿足我們傳統網際網路資訊服務的同時,也在賦予我們激情和想像。