【Science】超越深度學習300倍， Vicarious釋出生成視覺模型，LeCun批“這就是AI炒作的教科書”

最近大家都在探索“超越深度學習”的方法，“美國版DeepMind” Vicarious 近日在Science上釋出的一項研究，使用不同于深度學習的方法，将資料使用效率提升了300多倍，“對于未來的通用人工智能有重要意義”。該研究稱，使用這種新的技術，他們攻破了網站常見的驗證碼防禦，相當于通過了“反向圖靈測試”。LeCun對這家公司和他們的研究提出了尖銳的批評，說“這是AI炒作教科書式的例子”。不過，支援Vicarious 的人可不少：馬斯克、紮克伯格和貝佐斯都是其投資人。

總部位于舊金山的人工智能公司Vicarious近日在Science發表了自己的研究論文，提出了一個生成視覺模型RCN，研究稱找到了一種不同于深度學習的方法，能夠更高效地利用資料（最多提升300多倍的資料使用率），并且研究還攻破了基于文本的驗證碼（CAPTCHAs），引起廣泛關注。

CAPTCHA ，即全自動區分計算機和人類的公開圖靈測試（英語：Completely Automated Public Turing test to tell Computers and Humans Apart），俗稱驗證碼。是一種區分使用者是計算機或人的公共全自動程式。在CAPTCHA測試中，作為伺服器的計算機會自動生成一個問題由使用者來解答。這個問題可以由計算機生成并評判，但是必須隻有人類才能解答。由于計算機無法解答CAPTCHA的問題，是以回答出問題的使用者就可以被認為是人類。由于這個測試是由計算機來考人類，而不是标準圖靈測試中那樣由人類來考計算機，人們有時稱CAPTCHA是一種反向圖靈測試。

這已經不是Vicarious第一次宣稱突破CAPTCHA 了。早在2013年，LeCun就曾在網絡上公開批評過他們。

【Science】超越深度學習300倍， Vicarious釋出生成視覺模型，LeCun批“這就是AI炒作的教科書”

LeCun寫道：“AI 初創公司 Vicarious 聲稱他們擁有一個能夠以高達 90% 的成功率破解 CAPTCHAs 的系統。

小心：這是關于 AI 炒作教科書式的例子，最壞的那種。

炒作是 AI 的大敵。炒作在過去50年間“謀殺”了AI 4次。必須馬上停止炒作。

也許 Vicarious 在某些他們自建的 CAPTCHA 資料集上達到了“90%”的準确率，但是：

1.攻破 CAPTCHAs 不是什麼有趣的任務，除非你是個垃圾郵件發送者；

2.在你自建的資料集上取得這樣的成功并不難，但其他人想攻破這個資料集并不容易；

3.在圖像中識别對象要比攻破 CAPTCHAs 難得多。一些深度學習系統已經能實作不錯的準确率。比如一些谷歌和百度部署的系統。

雖然面臨着leCun的強烈批評，但是 Vicarious 得到了許多美國科技圈大佬的支援，受到了資本的青睐。新智元查閱資料發現，這家成立于2010年的AI公司，目前融資已經到達C輪，獲得的總投資大約

1.34億美元。公司早期的投資者包括： Elon Musk, Mark Zuckerberg 以及剛剛成為首富的亞馬遜總裁 Jeff Bezos，還有YC創始人之一的

Sam Altman等。

Vicarious 被認為是可以與DeepMind相提并論的明星AI初創公司。

原論文

為了更深入的了解這一種研究和Vicarious的最新成果，先去看看這次釋出在Science上的原論文。

論文題目：《A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs》位址：

在摘要中，作者介紹：

人類的視覺智能可以從很少的樣本中學習并泛化到截然不同的情境下，但是即使是最先進的機器學習模型也沒有這樣的能力。通過從系統神經科學中擷取靈感，我們引入了視覺的機率生成模型，其中基于消息傳遞的推理（Inference）以統一的方式處理識别、分割和推理（reasoning）。該模型展現出優秀的泛化和閉塞推理的能力，并且在具有挑戰性的場景文本識别基準上勝過了深度神經網絡，取得了300倍以上的資料效率。此外，該模型通過在不使用特定 CAPTCHA 啟發的情況下，将字元進行生成式的分割，基本上攻破了現代基于文本的 CAPTCHAs 防禦。我們的模型強調資料效率群組成，這對于未來的通用人工智能有重要意義。

人類字型感覺的靈活性。（A）人類善于解析不熟悉的 CAPTCHAs；（B）相同的字元形狀以各種各樣的外觀呈現，人類都可以在這些圖像中檢測到“A”；（C）常識和上下文會影響字型感覺：（i）m vs u 和 n；（ii）根據 occluder 的位置不同，會将相同的線段解釋為 N 或 S；（iii）對形狀的感覺有助于識别“b，i，s，o，n”和“b，i，k，e”。

研究所使用的資料庫清單，其中包括了MINIST，也就是LeCun聯合發起的資料庫。

技術核心：不同于深度學習的方法——遞歸皮質網絡（RCN）

Vicarious 本次發表在Science上的論文，在技術上強調的是，一種新的神經網絡方法——遞歸皮質網絡（RCN），并稱它在多種計算機視覺任務中實作了強大的性能和較高的資料效率。

在官方部落格上，Vicarious 使用腳手架（scaffolding ）和白闆（tabula rasa）來描述這種網絡在學習上與深度學習方法上的不同。

RCN以“腳手架”，也就是可以使用模型中原來已經存在的架構來進行模組化。例如，雖然大多數的 CNN和 VAE（變分自動編碼器）都是整圖的模型，但是對于對象和圖像關注較少。RCN是一個基于對象的模型，它考慮到輪廓和曲面以及對象和背景的分解。 RCN也明确地對形狀進行表征，并且橫向連接配接的存在允許它跨越大的變換來池化而不失去特異性，進而增加其不變性。組合性允許RCN用多個對象來表示場景，但隻需要對單個對象進行明确的訓練。 RCN的所有這些特征都來源于我們的假設，即演化已經賦予了新皮層相似的“腳手架”，這使得我們可以在自己的世界輕松地學習表示，而不是從一個完全空白的“白闆”開始。

有了正确的“腳手架”，學習和推理變得更加容易。在學習過程中，RCN比“白闆”的資料效率要高出數十倍，在場景文本識别基準的下，效率是300倍甚至更多。在許多模型都面臨過拟合，有許多與其訓練集的無關細節的情況下，RCN識别場景的顯著特征，允許強化其他類似場景的泛化。此外，在RCN設定中，分類，檢測，分割和閉塞推理（occlusion reasoning ）都是不同的，它在同一模型上的互連指令，進而為圖像中存在的證據提供解釋。

CAPTCHA：為什麼AI的核心問題是了解字母“A”

在2013年，Vicarious 宣布RCN的早期成功：它能夠打破基于文本的人機識别，如下圖所示（左欄）。

通過一個模型，Vicarious 在reCAPTCHA上達到66.6％的準确率，在BotDetect達到64.4％的準确率，Yahoo57.4％，PayPal57.1％，均高于在CAPTCHA達到的被認為無效率的1％（見[4]更多細節）。為特定風格優化單個模型時，可以達到高達90％的準确度。

Vicarious 在官方部落格上寫道：在揭示了“什麼”（what）和”如何”(how)之後，我們想描述“為什麼”（why）：為什麼我們首先選擇CAPTCHA基準，為什麼它仍然是通用AI的相關基準。

上圖（右欄）中的CAPTCHA風格的字母A表示了無需對變體進行特殊訓練，人類呈現和識别字母A的組合方式，而不對這些變體進行明确的訓練。我們評估的光學字元識别（OCR）的公開的API都沒有能夠捕獲這種多樣性，因為這要求識别引擎将其歸納為訓練集中未表示的分布。這些方法是基于暴力模式識别。他們沒有組合的概念，是以沒有将字母A與其背景分開的機制。此外，他們對物體沒有了解，是以沒有辦法孤立地推斷字母A的形狀和外觀。

如下面的GIF所示，對CAPTCHA訓練的CNN 等深度學習方法對單個字母間距的小變化泛化表現不佳。相比之下，随着字母的展開，RCN保持強勁。請注意，動畫中的性能已報告了建立的CAPTCHA圖像，以便與reCAPTCHA資料集分開來評估間距的影響。

有影響力的哲學家和AI研究員（Douglas Hofstadter）指出，AI的核心問題是了解字母A。就像Hofstadter一樣，我們認為“任何可以用人的靈活性來處理字型的程式，都會擁有全面的人工智能。”雖然ImageNet分類或自動字幕生成系統的”超人“精準度可以讓人感覺到感覺問題已被解決，但看似簡單的問題可以為發展類人智慧提供巨大的深度和洞察力。

Vicarious 在官方部落格表示：“在本文中的工作是讓計算機能夠以人類感覺的靈活性和流動性來了解字型的一小步。即使有所進步，我們仍然遠遠沒有解決Hofstadter看起來簡單的挑戰，即檢測到字母A與人的流動性和動力相同。我們相信，我們在本文中探讨的許多想法對于建構可以超越人類的訓練分布的系統來說将是重要的。

我們周邊世界充滿了使用複雜行為在其壁龛内蓬勃發展的生物體。雖然螞蟻具有超人般的挖掘隧道能力，鲑魚可能是無與倫比的導航者，但他們的大腦幾乎沒有告訴我們通用智能。同樣，深度學習也表現出許多有限的超人般識别照片和打比賽的能力。重要的是不要将深度學習的成功與創造多元化的狹義智慧融為一體，在通向智慧的道路上取得進步。”

DeepMind以外，另一家瞄準通用人工智能的AI初創企業

上文提到，Vicarious 被認為是可以與DeepMind相提并論的明星AI初創公司，其中的主要原因就是在研究方向上。他們瞄準的也是通用人工智能。

在 Vicarious 介紹最新研究成果的部落格上，他們寫道了自己的研究思路，以及對常識的神經科學的觀點。以下是部分翻譯：

引言

我們從出生的那一刻起，就開始用感官來建立一個關于世界的連貫性模型。在成長的過程中，我們又不斷地修正我們的模型，并在生活中毫不費力地使用它。

如果我們看到一個球滾到街上，我們可能會推想到可能是一個孩子将球踢到了那兒。當有人讓我們去倒一杯葡萄酒，如果酒已經被裝在醒酒器中，我們就不會再去找開瓶器。如果我們已知：“Sally把釘子釘在地闆上”，然後被問到“釘子是垂直還是水準的”，我們可以想象出帶有一定細節的場景，然後自信地回答：“垂直的”。

在這些情況下，我們正利用我們無與倫比的能力對常見情況做出預測和推論。這個特殊的能力就是我們所說的常識。

常識來自對過去經驗，并将之提取成一個一種抽象的表征，可以在任何場景下，擷取其中合适級别的細節。這種知識大部分存儲在我們的視覺和運動皮層中，作為我們為世界的建立的内部模型。為了有效地發揮常識的作用，它需要被調整，以适應不同的假設，我們把這種能力稱為想象力。它能讓我們生成模型、實作機率表示和推理算法。

什麼樣的生成模型才足以産生常識？解決這個問題的一個方法是要問：人類的視覺系統建立了什麼樣的模型？在我們最近發表在《Science》的論文中，我們通過展示如何将來自大腦皮質的線索納入我們稱為遞歸皮質網絡（RCN）的計算機視覺模型中，來回答這些問題。

在這篇博文中，我們将在常識，大腦皮層以及我們在 Vicarious 的長期研究目标的背景下描述RCN。

現有的生成模型能夠産生常識嗎？

機器學習和人工智能的現代研究往往是屬于簡化論（reductionist）的：由研究人員定義智能的一個方面，然後分離其定義的特征，并建立一個基準來評估研究在這一狹義問題的進展，同時盡可能多地控制其他變量。但是，常識的問題與這種簡化論的道路是互相沖突的，因為它包含了同一模型許多不同方面的智能。以計算機視覺為例，如果建立了常識模型，應該能夠以不同的方式組合不同的表征變量，進而實作對象識别，分割，插補（ imputation），生成和将其他各種不同的指令實作整合，在這一過程中，他不需要根據不同的指令進行再訓練。

生成模型的研究往往側重于可以解決具體問題的狹義解決方案，但并不提供一種通過任意機率指令來充分利用模型知識的簡單方法。例如，在變分自動編碼器（VAE）中，訓練的副産品是快速推理網絡。

然而，如果得到的指令是進行插補（Imputation），每次操作都需要使用不同觀察變量集，那麼我們就需要根據每次的指令進行重新訓練，對不可用的模型進行渲染。此外，對黑箱模型上“證據下限”（ELBO）的優化一邊倒的強調，也展現了擷取有意義的潛在變量的重要性。

使用适當的生成結構（歸因偏差）從可解釋性和在更複雜的系統中實作更豐富的融合的角度上來看都是有益的，即便即使付出的代價是稍微較小的ELBO。生成對抗網絡（GAN）的一個優點，但同時也是其局限性，就是它們沒有規定任何推理機制，是以即使在成功訓練了一個生成模型之後，我們也必須訴諸不同的技術來回答機率上的指令。甚至一些易于處理的模型，如Pixel RNN，是根據一個等級順序進行定義的，這可以讓一些有條件的指令可以很簡單地處理，但對于其他指令來說卻很難。

這些單獨的生成模型在其訓練規則的範圍内是很強大，但是它們并不會發展出對世界的連貫性的了解，就是我們定義的常識。為了尋找超越這些狹義的成功的規則，我們将我們轉向在常識上取得唯一已知的成功的實踐：人腦。

人類大腦的生成模型是什麼樣的？

認知科學和神經科學數十年的研究已經對人腦的計算和統計特性有了深入的洞察。這些特性展現了通往通用智能的生成模型所需要的幾個功能性的要求。

簡而言之，我們希望建構的生成模型是組合型的、因式分解的，階層化的，并且根據指令可以靈活調整的。

在下表中，我們列出了神經科學觀察資料的抽樣，為我們的研究提供了靈感。

原文釋出時間為：2017-10-29

本文作者：胡祥傑常佩琦張易

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

【Science】超越深度學習300倍， Vicarious釋出生成視覺模型，LeCun批“這就是AI炒作的教科書”

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普