在大家熱議Vicarious AI那篇Science論文時，我們和這家公司的CTO聊了聊（回應LeCun批判）

Dileep George

Vicarious AI 是一家矽谷的人工智能 (A.I.) 初創公司，緻力于從人腦中獲得啟發，實作擁有高等智能的機器人。在 Vicarious AI 的辦公室裡，到處可見其智語——Our Frontier, Human-like AI。

上周，Vicarious AI 發表的一篇論文

《A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs》

引發了 AI 界的熱議。作者在論文中提出了一個不同于深度學習的模型——遞歸皮質網絡（Recursive Cortical Network），突破了基于文本的全自動區分計算機和人類的圖靈測試 CAPTCHA。和主流的深度學習算法相比，Vicarious AI 的遞歸皮質網絡在場景文字識别中展現了 300 倍的訓練資料使用效率。

文本 CAPTCHA，也就是驗證碼，是用來防止機器人惡意登入網站的網絡安全軟體。人類是很容易識别出 CATPCHA 中形狀怪異的文字，但對機器而言，CAPTCHA 則成了看不懂的鬼畫符，是以這也被視為是一種圖靈測試。

早在 2013 年，Vicarious AI 就聲稱已經攻克 CAPTCHA，但公司直到上周才發表了論文。其中一個主要原因是，當時 CAPTCHA 還在被廣泛使用，Vicarious AI 擔心發表論文會引發不小的網絡安全問題。現在，依舊使用 CAPTCHA 作為驗證手段的公司已經不多了，正是發表論文的好時機。

對 Vicarious AI 來說，攻克 CAPTCHA 隻是通往 Human-like A.I. 的一個中繼站。「我們的目标是解決所有人類擅長解決的問題，尤其是在面對自然視覺信号時，」George 說。

「如果一生隻解決一個問題，我肯定選擇人腦。」

George 大學畢業于印度理工學院，随後來到美國斯坦福大學就讀電氣工程，同時鑽研機器學習。到了第二年，Dileep 開始對神經科學産生興趣。「我曾經在國中讀過很多心理學的書，在大學的時候全放棄了。這種興趣在研二的時候又突然回來了，這讓我開始側重對神經科學的研究。」

George 在斯坦福大學讀博士期間，遇到了 Jeff Hawkins——《人工智能的未來》作者，也是矽谷掌上電腦公司 Palm 的創始人（Palm 在 2011 年被惠普收購）。Hawkins 是神經科學領域的大牛，和 George 意氣相投，兩人在 2005 年共同建立了 Numenta——一家緻力于機器智能的軟體公司。

Numenta 并不滿足于 George 對神經科學和機器學習的探索，是以在 2010 年，他準備重新創立一家新公司。碰巧在那個時候，D. Scott Phoenix 也就是 Vicarious AI 的現任 CEO 找到了他。創立 Vicarious AI 之前，Phoenix 曾有過一次創業經曆，公司被矽谷知名的孵化器 Y Combinator 收錄。之後，他又加入風投 Founders Fund，成為合夥人。

Phoenix 看中 George 在神經科學和工程學上的造詣，決定與他一同建立 Vicarious AI。從公司創立之初，他們的目标就很明确——從人腦獲得啟發，實作擁有高等智能的 A.I.。

「人腦就是一個通用學習的基礎架構，可以在這個世界裡學習各種各樣的問題，」Phoenix 在接受高盛投資公司的采訪中說。

D. Scott Phoenix

當時，提出這個想法的公司很少，但矽谷向來不缺慧眼識人的投資家，比如 Facebook 的天使投資人以及 Paypal 的創始人 Peter Thiel。Thiel 在 2010 年年底給 Vicarious AI 一筆種子輪融資。到了 2014 年，Vicarious AI 完成了 4000 萬美元的 B 輪融資，包括 Facebook 的創始人 Mark Zuckerberg，Y Combinator 的 CEO Sam Altman，以及 Tesla 的創始人 Elon Musk 都參與其中。截止目前，Vicarious AI 的融資總額已經超過了 1.3 億美元。

和融資額形成強烈反差的，是公司至今不過 50 人的規模以及緩慢的擴張速度。George 透露說，直到 2013 年，Vicarious AI 的團隊才隻有六個人。

「不是不想招人，我們花了很長時間才确定了一條我們自認為正确的研究方向。」George 說。這條方向就是讓機器獲得感覺。

機器了解世界，需要畫面感

A.I. 界有一句戲言——「無法了解自然語言的通用人工智能都是耍流氓」。但是，Vicarious AI 在創立之初卻決定先回避對自然語言的研究，從計算機視覺領域入手。George 看來，如果機器無法感覺這個世界，它也無法了解自己到底在幹什麼。

「一根垂直插在牆上的釘子和一根垂直插在地上的釘子，哪根釘子是橫向的？」George 舉了個簡單的例子。很明顯，插在牆上的釘子是答案。「通常來說，人們不是單純地從字面上得到這個答案，而是在腦中想象這個畫面。得到這個畫面前，你必須有關于牆的實體知識和牆與釘子的互動方式，這也是為什麼 Vicarious AI 要從視覺下手。」

在計算機視覺領域，如今的主流算法是以卷積神經網絡（Convolutional Neural Network) 為代表的深度學習算法。但是，深度學習算法隻對固定的問題有效，一旦問題出現變化，算法就不管用了。

「現在的強化學習已經可以玩打磚塊遊戲了，可如果下面的接受盤往上升三個像素，那麼這個模型就會崩潰，」George 說完，還特别強調了「三個像素（only three pixels）」。

大量的資料和計算能力同樣是制約深度學習的條件，至少人類下一盤圍棋隻需要一雙手和一杯咖啡提提神，而基于深度學習的 AlphaGo 則要花上 3000 美金；重疊問題則是困擾卷積神經網絡許久的「阿喀琉斯之踵」，一旦兩張圖檔重疊，且重疊部分的顔色完全一緻，那麼卷積神經網絡就很難分辨出來。

是以，Vicarious AI 選擇了不同于深度學習的生成機率模型，能夠模拟和生成圖像中物體的輪廓、外形，進而了解物體。生成模型有兩個明顯的好處：更好的泛化能力和處理對抗樣本的能力。在 Vicarious AI 最新的論文中，遞歸皮質網絡就是一種能在多種計算機視覺任務中實作強大的性能和高資料效率的生成模型。

研究所學生成模型的挑戰在于：研究問題的邊界是未知的，這反而成了深度學習算法的優勢——隻讓機器做一件事情，它就可以做得很好。Vicarious AI 的團隊花了很長時間挑選研究的課題，既能解決計算機視覺中對物體的檢測和識别，也能展現泛化的能力。最後，Vicarious AI 選中了 CAPTCHA。

著名的哲學家 Douglas Hofstadter 曾說過：「AI 的核心問題就是了解字母 A（the central problem of AI to understand is the letter 『A』）」，George 對這句話深信不疑。

代表字母 A 的四層遞歸皮質網絡結構

「我認為 CAPTCHA 是一個『完全的 AI 問題』。如果你完全地解決了這種類型的問題，那你就得到了通用人工智能。」George 告訴記者，為了能徹底識别 CAPTCHA，模型必須能識别任何文本。不隻是驗證碼，即使有人在紙上随便寫什麼形式的字型（就像 PPT 裡的藝術字一樣），模型也需要識别出來。

想要研究 CAPTCHA 的科學家不止 George 和他的團隊，很多科學家都意識到識别 CAPTCHA 的重要性。麻省理工大學的認知科學教授 Josh Tenenbaum 同樣在使用生成機率模型解決 CAPTCHA 的問題。

而 Vicarious AI 的解決方法和其他研究最大的差別是——将腦科學的研究成果應用到生成模型中。

人腦已經為機器搭好了架構

在實作通用人工智能的方法上，如今的 A.I. 界出現了巨大的分歧：偏向于借鑒人腦先天機制的「自然派」與相信機器自身發展的「機器派」。今年 10 月，A.I. 界的兩位旗手——紐約大學心理學和神經科學教授 Gary Marcus 和 Facebook A.I. 研究所主管 Yann LeCun 就這個問題展開了兩個多小時的辯論。Marcus 支援前者，LeCun 則是機器派。

Vicarious AI 選擇了站隊「自然派」：對人類大腦的研究是實作通用人工智能的關鍵。「所有的學習算法到頭來都是搜尋，如果撇開人腦，這樣的搜尋量實在是太大了；是以，我們認為需要借鑒人腦的特征來實作。」目前，Vicarious AI 有 20% 的成員是研究神經科學的專家，這些對人腦皮質的研究成果也在最新的這篇論文中展現。

在這篇論文中，最典型的例子就是利用視覺皮層中的橫向連接配接（lateral connections）。在人類的視覺系統中，橫向連接配接能夠保證人類了解物體輪廓的連續性；将人類視覺的特征應用到遞歸皮質網絡上時，橫向連接配接允許遞歸皮質網絡在池化的過程中不會失去特異性，進而增加不變性。

另一個例子則是「自上而下的注意力機制」。即使是高度重疊且重疊部分透明的字母 A 和 B，人類也可以輕松地分開識别這些字母，這是依靠了注意力機制。當這種特性應用在遞歸皮質網絡時，就可以允許網絡擁有組合型（compositionality），允許用多個對象來表示場景。

「我們的研究需要一個稱之為『腳手架（scaffold）』的東西，」George 進一步解釋道。腳手架原本是程式設計中的專用詞，程式員會建造一個架構（腳手架）讓他們友善地通路函數。同樣的，遞歸皮質網絡沒有采取和 CNN 或者其他深度學習網絡的方法，從一張白紙開始從頭分析圖像；而是基于人類識别圖像的這個架構，讓機器擁有和人類視覺系統一樣的特征。

從結果上來看，遞歸皮質網絡在場景文本識别基準的資料效率是深度學習算法的 300 倍甚至更多。遞歸皮質網絡在 reCAPTCHA 上的準确率達到 66.6％，BotDetect 64.4％，Yahoo 57.4％，PayPal 57.1％。隻要準确率高于 1%，就被認為是攻破了 CAPTCHA。

當 2013 年 Vicarious AI 公布結果時，業界褒貶不一，Vicarious AI 沒有拿出有效的研究方法是很多 A.I. 科學家口誅筆伐的主要理由，其中也包括了 LeCun。他在 2013 年對 Vicarious AI 進行了激烈的抨擊，并用「這是最糟糕的教科書式的 AI 炒作案例（It is a text example of AI hype of the worst kind)」來譴責 Vicarious AI。

過去的四年裡，不少人都問過 George 對 LeCun 這番話的評價，他都不予置評。直到上周的論文發表後，George 告訴機器之心，「這篇論文就是最好的答案。」

遞歸皮質網絡不隻是用來攻破 CAPTCHA，它還将被應用在控制、推理、機器人技術上。近兩年，Vicarious AI 已經在實驗室裡研究如何将技術應用到工業機器人上。

據 Vicarious AI 的商業化總監樓興華博士介紹，Vicarious AI 将提供倉儲機器人和工廠機器人所需要的視覺和控制的智能子產品，尤其是在柔性制造上（flexible manufacturing）。傳統的剛性制造生産線都是非标準自動化，每條生産線針對特定的産品，配置和模具都不一樣。柔性制造的概念是自動适應不同的産品，最明顯的優勢就是讓系統滿足不同的産品要求進行生産，在場景和需求都變化的情況下，機器人的生産效率也能夠被保障。

Vicarious AI 的投資人包括 ABB Group 和 Amazon，這家公司也與衆多國内外頂尖機器人公司和制造商建立了合作關系。

工業機器人是目前 Vicarious AI 技術落地的方式，但并不意味着 Vicarious AI 會就此止步。Vicarious AI 希望在 2040 年前後實作高等智能的 A.I.。

「我不覺得其他公司會比我們先解決這個問題，」George 顯得很有信心，「實作高等智能的 A.I. 就像是把人類送上月球一樣偉大，這是我們做下去的動力。」

矽谷頂級人工智能大會AI Frontiers将在本周五（美國時間）盛大召開，點選「閱讀原文」參與報名。

在大家熱議Vicarious AI那篇Science論文時，我們和這家公司的CTO聊了聊（回應LeCun批判）

「如果一生隻解決一個問題，我肯定選擇人腦。」

機器了解世界，需要畫面感

人腦已經為機器搭好了架構

繼續閱讀

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Bugku-WEB-web33

面試題解析：你接口測試是怎麼做的？

hdu7108哈希