陸奇對話Gary Marcus：面對技術缺陷、倫理争議和實踐缺失的當下，如何建構可信AI？

當人類第一次仰望星空的時候，離文明就不遠了。對于當下的 AI 來說，也是如此。席卷全球的疫情釋放出信号和警告，我們需要一個新的 AI 劇本。

過去我們花了太多時間開發銷售廣告的 AI，從現在開始，不妨重新評估未來幾十年，我們到底需要打造一個什麼樣的 AI？如何以我們想要的方式實作更為美好的 AI？對這一「重新開機（reboot）」問題的多元思考，串連起「圍爐夜話」的所有環節與亮點。

7 月 10 日晚間八點，WAIC· 開發者日正式啟動，作為開場的特色環節，機器之心與上海交通大學人工智能研究院聯合邀請到了奇績創壇創始人兼 CEO 陸奇和 Robots.AI CEO 兼創始人 Gary Marcus 進行高峰對話。

此外，在「Demo Day」環節，一系列優質的開源項目陸續登場，除對主流開源工具及架構的探讨外，還有實踐中的熱門方向，比如人臉圖像、熱門遊戲開源項目等。企業内部的開源及技術架構也成亮點之一，比如阿裡巴巴的淘系技術部無限開發專家吳子奇分享路關于 MNN 的部署實踐。

而當我們将目光從技術角度轉移到整個 AI 産業，會發現 AI 尚處于無法被完全信任的狀态，這無疑将阻擋 AI 應用開發的腳步。

比如，深度學習主導下的機器無法靈活的處理不可預知事件，隐私、偏見、版權等倫理問題一次次引發輿論風暴。放眼學界和業界，可複制性審查的缺失和巨頭重度壟斷的市場都在阻礙行業往前進。

針對這些問題，陸奇和 Gary Marcus 帶來了不少精彩觀點。對話首先探讨了深度學習的局限性。在 Gary Marcus 看來，現有的深度學習訓練方式是在用資料代替機器本身的思考，無法讓其對世界有更深層的感覺和推理。相比深度學習，「常識推理」是訓練 AI 更有效的方法，可從思維方式上改變機器的認知水準。

在 AI 倫理方面，對話直面了近日陷入輿論漩渦的隐私和偏見問題。Gary Marcus 認為，利用分布式學習架構的「聯邦學習」可以有效解決資料擷取和隐私保護間的沖突。而 AI 的偏見是由資料本身的不平衡産生，除非能訓練 AI 了解資料背後的含義，否則偏見問題還無法解決。

在大多數人的觀念中，要解決這些倫理問題，AI 應該朝着 Artificial General Intelligence（通用人工智能）努力。但 AGI 太遙不可及，Gary 認為目前我們的目标應該是「穩健的人工智能」，比如創造一個可以對實體世界進行推理的系統。

如何建立？從學術屆的角度來說，應當改革激勵機制，鼓勵「可複現性」的項目研究；而從 AI 市場來看，則需要改變壟斷現狀，将巨頭公司拆分為多個創業項目，激發市場活力。

一、技術重新開機：深度學習做的遠遠不夠

當陸奇問到「人工智能在疫情中的應用潛力時」，Gary 的回答是，「AI 做的遠遠不夠。」

在 Gary 的設想中，人工智能的未來方向是在更深層的科研方面幫助人類，它應當可以閱讀文獻，學習醫學、生物學和化學，幫助人類篩查藥物，在無需人體測試的情況下通過計算機模拟了解藥物安全性，或者篩查新冠病毒論文并判斷研究價值。但目前機器最多隻可以根據關鍵詞篩選論文。

在深度學習成為人工智能主導的這些年裡，機器感覺世界的方式就是資料，它需要大量的資料認知物體，行動也需要依靠設定好的程式。

是以，當碰見新冠病毒者這類缺乏龐大資料庫的新型疾病時，機器的作用就會非常有限。

學界一直存在對深度學習的批判，如果一直用大量資料代替真正的思考，機器将永遠無法像人類一樣進行感覺和推理。

Gary 舉例說，「我現在看見的畫面中間有一個紅色的水瓶，我沒有看見任何支援它的東西，但用實體學常識預測，它肯定不是漂浮在空中，我可以猜測他是穩定的，但是機器不能。」

同樣的，機器也無法處理突發情況，正如 AlphaGo 擊敗人類圍棋大師時流傳的那則笑話，「當房間着火的時候，我們的機器人可以下出超人一般的圍棋棋步。」——人類擁有關于這個世界的基本知識(火很危險)，同時還有推理的能力(應該遠離火)，但機器沒有。

如何做到？Gary 給出的回答是，「用常識推理訓練機器」，機器不聰明的關鍵是其不像人類一樣擁有世界的常識。

回望 20 世紀 60、70 年代，當時的科學家們并非用資料訓練機器，而是嘗試教給機器關于世界的常識，讓其用邏輯做一些簡單的推理。

比如，麥卡錫提出的 Advice Taker 是世界上第一個解決常識知識的人工智能程式，它想讓機器做的推理是，「因為想讓别人吃蛋糕而去烤蛋糕。」「因為 tweety 是一隻鳥，是以 tweety 會飛。」

「任何想要進入人工智能領域的人都需要透過現在回望過去。」Gary 說。在當今時代，尤其是當今的中國，我們擁有極其龐大人類互動資料庫，比如微軟小冰，每月有上億人與之聊天，如何利用這些資料庫讓機器了解世界的常識，進而擁有思想，才是現代科學家應該做的事情。

Gary 所說的機器了解常識在現階段還無法做到，但已經有一些公司在往這個方向努力。比如 Gary 建立的公司 Robust.AI 一直在将深度學習與符号人工智能結合，培養機器的邏輯思維。

Cyc 項目沿用的傳統的常識教授方法，雇傭了來編寫 2500 萬條常識性規則，比如「水是濕的」或者「大多數人都知道他們朋友的名字」。這讓 Cyc 能夠推斷：「如果你的襯衫濕了，是以你可能是在雨中。」

二、倫理重新開機：隐私、偏見與版權，AI 會走向何方？

談及 AI，一個不可忽視的問題就是倫理，人工智能的發展似乎一直伴随着倫理争議。在新冠疫情肆虐的背景下，AI 引發的倫理似乎更加嚴重。

陸奇和 Gary 的對話并沒有回避這個敏感問題，而是就隐私、偏見、版權侵犯等極受争議的領域進行了反思與探讨。

聯邦學習：資料與隐私的兩全法

在新冠肆虐的背景下，許多組織都開發了追蹤者應用程式，但受到了不少隐私捍衛者的反對，最後蘋果和谷歌聯手推出了藍牙追蹤項目，利用藍牙将使用者資訊匿名傳播到雲上。

但關于人工智能與隐私問題的讨論從未停止。西方有《歐盟通用資料保護條例》，今年 4 月，國務院也在《關于建構更加完善的要素市場化配置體制機制的意見》裡，強調了資料的共享、資料資源的整合和安全保護。

不管是個人應用還是 2B 項目，都面臨着隐私保護與資料孤島問題。「如何看待人工智能與隐私保護的沖突？」陸奇問到。

這方面的技術也的确迎來不少突破，Gary 認為，「聯邦學習」是解決隐私問題的一個可行的辦法。

聯邦學習的本質是用分布式機器學習技術，從群體中抽離個體資訊。在聯邦學習架構中，參與者的邊緣裝置産生的資料會儲存在本地，裝置會根據本地資料訓練本地機器模型，然後根據一定的通信機制向中央伺服器傳輸模型參數等資料，（模型參數并非用戶端原始資料。）由此一來，中央處理器就可以在邊緣裝置不貢獻資料的情況下訓練建構全局模型。

「如果我們走到符号層面，你可以抽想出需要了解到場景，而不侵犯特定個體到個人隐私。」Gary 說。

不會思考機器：傲慢與偏見如何解？

隐私之外，一個更受争議的倫理話題是偏見。今年的弗洛伊德事件、杜克大學 PULSE 算法事件以及巨頭紛紛下架人臉識别應用等都将人工智能偏見推到了輿論漩渦中。

「在你看來，是否可能存在不帶偏見的人工智能應用算法或系統？」陸奇問。「現在沒有，也許最終會有。」Gary 說。在他看來，人工智能存在偏見的原因是，機器隻是在回報過去的事情。

「如果你有一個根據過往資訊擷取優秀程式員的系統，你輸入一個芭蕾舞演員，由于系統中沒有芭蕾舞演員資訊，最後得出的結論便是此人不适合成為程式員。這其中更深層次的原因是以往的教育是芭蕾舞演員不應進入程式設計領域。」社會觀念在進步，但機器隻會機械性的按照曆史資料做出判斷，但曆史資料本身就是帶有偏見的。

「唯一的補救方法就是常識推理。」Gary 認為，隻有常識推理才能讓機器具備更深層次的了解能力，思考他們正在處理的問題。

「我不認為這是無法解決的，但我認為這至少需要十年。我們目前所掌握的技術距離這一目标相去甚遠。」

被輕易篡改的真相：技術與版權如何平衡？

隐私和偏見是目前争議較大的兩個倫理問題，除此之外，人工智能還有一些未被重視但同樣有隐患的問題，如版權侵犯。

這類問題容易通常發生在生成模型中，比如 AI 換臉。2017 年 deepfake 橫空出世，随之而來是各類倫理問題，不少女明星的臉被換到色情電影中，2019 年 ZAO 的出現降低了換臉門檻，也讓肖像權侵犯現象更加泛濫。除了肖像問題，生成模型還在不斷侵入影視、音樂和文學創作領域，會更改原本的内容侵權作者版權。

「關于能夠生産更改内容的 AI 模型，你的觀點是什麼？」陸奇問。相比于版權侵犯，Gary 認為更嚴重的問題人工智能會很容易的制作虛假内容。

「你可以做一個視訊，Gary Marcus 說，深度學習是有史以來最棒的事。然後斷章取義的把它剪下來。人們無法分辨視訊的真假，無法辨識我是諷刺的口吻還是開玩笑的語氣。」

用僞造的内容掩蓋原本的真相，這是技術發展需要付出的代價之一。但我們并沒有相應法律基礎來保護人們的權益。

三、處在青少年時期的人工智能

「在某種程度上，我們正處于人工智能曆史上最糟糕的時刻。」Gary 說。往前看，AI 正處于發展早期，倫理問題尚未暴露出，往後看，人工智能已經強大到足夠解決這些問題。

Gary 将目前人工智能所處階段比為「青少年」，它是一個突然變強大的少年，野蠻生長，但對世界尚缺乏足夠的了解能。

這個階段我們應該做的不是讓其停止生長，而是規範他的行為，引導他成年。那麼，人工智能要如何走向未來？

我們對成年人工智能的最完美的想象就是 Artificial General Intelligence（通用人工智能），那時機器人将具有一般人類智慧。

「我們離 AGI 還有多遠？如何向 AGI 前進？」陸奇問。

在 Gary 看來，AGI 是非常遙遠的事情。「AGI 遠遠超過了我們目前的了解範疇，目前我們必須選擇更簡單的問題，比如創造一個可以對實體世界進行推理的系統。這很難，可能需要 20 年才能實作，但起碼我們可以看到問題是什麼。」這個更簡單的問題，用 Gary 的話來說就是「穩健的人工智能」，比如可以讓一輛車能在各種條件下行駛不發生意外，在家庭工作中能處理意外情況。

四、實踐重新開機：可複現性與壟斷破除讓 AI 更穩健

在實踐中，我們如何實作穩健的人工智能？

陸奇首先将目光放到了學界，提出了關于「可複現性」的問題。「我們是否應該要求論文作者描述他們的實驗系統和過程，以便評審人員和社群能夠複現其結果？哪些重要且必要的步驟能夠使 AI 研究向更穩健的方向發展？」

關于可複現性，Gary 的觀點十分明确，「如果你研究的是真正的科學，那麼你必須具備可複現性。如果你建構的項目隻在特定情況下有效，那它隻是個玩具。」可複現性可讓後人踩着前人的腳步，推動這個學科慢慢往更高的方向發展。但就陸奇的親身體驗而言，人工智能領域對可複現性的要求基本不存在。

Gary 認為這種現象的原因是激勵機制出現問題。科學家獲得研究經費的前提是在某個知名期刊中發表引人注目的結果，這會導緻科學家傾向于追求結果而忽略實作的過程。

追求奪人眼球的結果于個人有益，但對集體無益。「集體的利益來自于不斷研究真正的科學，這與個體獲得獎勵的方式截然不同。我認為在科學的某些方面，系統的整體結構設計是面向集體的。」

Gary 舉了艾倫腦科學研究所的案例，該研究所就緻力于機器「常識推理」研究，從成千上萬個線上故事、部落格和習語條目中提取短語事件訓練機器，讓機器學習從未見過的句子，并推斷句子的情緒或意圖。

這類的工作是一群人為一個共同的使命努力，對可複現性要求極高，無法在短時間内讓個人取得明顯的成就，但放在一個更長的周期中，卻可以推動整個人工智能領域的進步。

但情況會逐漸變好。Gary 認為，很多行業都經曆着從忽視到激勵可複現性的轉折。

「這種變化已經在心理學領域發生，醫學領域也即将發生，在人工智能領域，人們也逐漸意識到了這一點。」

當我們把目光從學術界轉至業界，會發現仍然阻礙健康人工智能發展到因素仍然存在，最主要的就是壟斷。目前谷歌、蘋果、亞馬遜等巨頭已經壟斷了大多數科技領域市場，并且會通過收購、兼并等方式持續排擠競争對手，擴大市場，亞馬遜 13 億天價收購 Zoox 就是一個典型案例。

「你是否有建議，能讓創業公司在巨頭環伺的情況下更好的抓住創業機會？」陸奇問道。

「我沒有神奇的解決辦法。」Gary 說。客觀來看，巨頭擁有壓倒性的人才、資金、技術等競争優勢，他們開出的收購價格也很難讓創業公司拒絕。

可壟斷狀态并不利于一個行業的健康成長，「大公司通常不擅長創新，他們擅長消耗掉所有的資源，他們通常有很多既得利益股東需要回應。」

從内部來看，公司成長到一定規模時，就容易涉及到股東利益競争。資本家對眼前經濟利益的追求可能會迫使公司做出短視的決策，美國曾經的電信巨頭 AT&T 的隕落就是鮮明的例子。

從整個市場看，資源的壟斷會阻礙創業公司的入場，缺乏充分競争的情況下，行業發展容易裹足不前。

要解決壟斷問題，似乎隻能從壟斷者本身入手，「從整個社會角度來看，給将巨頭拆分為不同的初創公司或許是可行的辦法。」Gary 說。

尾聲

回顧整篇對話，陸奇和 Gary 聚焦的問題就是「重新開機 AI」，從技術、倫理、規範等角度探讨了如何才能建構一個更穩定的 AI。

今天的人工智能已經發展到了一定高度，但與我們想要實作的人工智能相比，還是缺乏安全性和穩定性。

「我們目前的技術可以以 90% 的準确率解決某個問題，對廣告推薦這類問題而言已經足夠，但在自動駕駛、照顧祖父母等場景中，90% 的信任度遠遠不夠。我們必須思考，如何才能将準确率提高到 90% 以上，如何建構值得信任的人工智能。」

「我希望更廣泛的世界能夠考慮到處理這些關鍵任務到人工智能，它們可以改變世界，但需要更高程度的安全性。希望 5 年、20 年、50 年之後，我們真的可以做到這些事情。」今天下午，開發者日主論壇将于13:00-18:15進行，圖靈獎得主、院士與技術專家将帶來9場主題演講，WAIC雲帆獎、人工智能開源開放報告将重磅釋出，我們也将送出150本專業書籍，添加機器之心小助手（syncedai6），入群一起看直播、拿贈書。

陸奇對話Gary Marcus：面對技術缺陷、倫理争議和實踐缺失的當下，如何建構可信AI？

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

面試題解析：你接口測試是怎麼做的？

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希