天天看點

Transformer論文引用破4萬,兩位作者離開谷歌創業

機器之心報道

編輯:張倩

「在谷歌,我們訓練出了越來越大的 Transformer,夢想着有朝一日建構一個通用模型來支援所有 ML 用例。但是,這其中有一個明顯的局限:用文本訓練出的模型可以寫出很棒的散文,但它們無法在數字世界中采取行動。你不能要求 GPT-3 給你訂機票,給供應商開支票,或者進行科學實驗。」

在一場轟轟烈烈的「煉大模型」運動之後,全世界都在給這些模型尋找應用途徑和場景,原谷歌大腦研究人員、Transformer 重要作者 Ashish Vaswani、 Niki Parmar 也不例外。

2017 年,Ashish Vaswani、Niki Parmar 和其他幾位研究者一起發表了開啟大模型時代的裡程碑式論文——《 Attention Is All You Need 》。在這篇論文中,他們提出了著名的 Transformer 架構。2018 年,一個名為 BERT 的模型引爆了 NLP 學界,重新整理了 11 項 NLP 任務的 SOTA 記錄,其背後功臣正是 Transformer。

Transformer論文引用破4萬,兩位作者離開谷歌創業
Transformer論文引用破4萬,兩位作者離開谷歌創業

Ashish Vaswani、Niki Parmar 等人 2017 年發表的《 Attention Is All You Need 》。注意: 表示這些研究者做出了不同方面但同等重要的貢獻(排名随機)。其中,Ashish 和 Illia 一起設計并實作了第一批 Transformer 模型,并重度參與了 Transformer 架構的各方面工作。Niki 在原始代碼庫和 tensor2tensor 中設計、實作、調優和評估了無數的模型變量。

在之後的幾年裡,Transformer 成為自然語言處理領域的主流架構,而且成功跨界到了視覺、音頻處理等多個領域,标志性的「xxx is all you need」也成為火爆一時的标題模闆。

五年過去,Ashish Vaswani、Niki Parmar 決定踏上新的征程。在最近釋出的推文中,他們宣布自己參與創辦了一家新的創業公司——Adept,緻力于讓人和計算機以創造性的方式一起工作,進而實作通用智能。「我們相信,人工智能系統應該以使用者為中心,我們的願景是讓機器與坐在駕駛員位置上的人一起工作:發現新的解決方案,使決策更加明智,并給我們更多的時間做我們喜歡的工作。」該公司在介紹中寫道。

Transformer論文引用破4萬,兩位作者離開谷歌創業
Transformer論文引用破4萬,兩位作者離開谷歌創業

除了 Ashish Vaswani 和 Niki Parmar,該公司還聚集了多位 AI 領域的頂級研究者(基本都在谷歌工作過),包括:

前谷歌大腦研究工程師 Anmol Gulati,他參與了谷歌的大規模語音和語言模組化研究;

前谷歌大腦研究科學家 Augustus Odena,他參與建構了谷歌的代碼生成模型;

前 OpenAI 加州實驗室工程副總裁 David Luan,後來也加入過谷歌大腦,他是 GPT-2、PaLM (https://mp.weixin.qq.com/s/-Annt2JkAhgv9YxYpc7pXQ) 的論文作者之一,還參與了 GPT-3 的部分工作;

在 DeepMind、谷歌大腦、百度都工作過的 Erich Elsen,他是機器學習和高性能計算交叉領域的研究人員,在 DeepMind 參與上司大模型的訓練工作,緻力于提高訓練效率;

前谷歌大腦軟體工程師 Fred Bertsch,他是資料和協作人工智能系統方面的專家;

前谷歌 ML 産品經理 Kelsey Schroeder,她曾上司谷歌大模型生産基礎設施産品;

曾在谷歌大腦實習的 MIT 博士 Maxwell Nye,他的研究重點是使用深度學習和符号技術來自動編寫代碼。在谷歌實習期間,他曾使用非常大的語言模型(> 1000 億個參數)來編寫和了解 Python 程式。

Transformer論文引用破4萬,兩位作者離開谷歌創業

Adept 創始團隊。

那麼,這些大牛為什麼要離開谷歌這種大廠自己創業呢?他們的新公司要做什麼産品呢?

David Luan 在公司的第一則部落格中寫道:

在谷歌,我們訓練出了越來越大的 Transformer,夢想着有朝一日建構一個通用模型來支援所有 ML 用例。但是,這其中有一個明顯的局限:用文本訓練出的模型可以寫出很棒的散文,但它們無法在數字世界中采取行動。你不能要求 GPT-3 給你訂機票,給供應商開支票,或者進行科學實驗。

真正的通用智能要求模型不僅能讀能寫,還能以一種對使用者有幫助的方式采取行動。這就是我們創立 Adept 的初衷:我們正在訓練一個神經網絡來使用世界上的每一款工具和 API,該網絡建立在人們已經創造的大量現有能力的基礎上。

實際上,我們正在建立一個通用系統,幫助人們在電腦前完成工作,我們管這個系統叫:每個知識工作者的「通用合作者」。你可以把它想象成你電腦裡的一個 overlay,它和你一起工作,使用和你一樣的工具。

使用 Adept,你能專注于你真正喜歡的工作,并要求模型承擔其他任務。例如,你可以要求模型「生成月度合規報告」,所有這些都使用現有的軟體,如 Airtable、Photoshop、ATS、Tableau、Twilio。我們希望這個「合作者」是一個好學生,可訓練性非常強,非常有幫助。

這一産品願景讓我們興奮不已,不僅因為它對每個在電腦前工作的人來說都非常有用,還因為我們相信這是實作通用智能最實用、最「安全」的途徑。與生成語言或自行決策的大型模型不同,我們的模型範圍更窄——我們是現有軟體工具的接口,更容易緩解偏見問題。對我們公司來說至關重要的是,我們的産品如何成為一種工具,來了解人們的偏好,并在每一步中整合人類的回報。

從這則部落格中我們可以看出,Adept 雖然也宣稱要實作 AGI,但他們選擇的是一條不同的道路,即先不着急用 AI 取代人類,而是緻力于用 AI 來增強人類的能力,這聽起來似乎更容易實作。

Transformer論文引用破4萬,兩位作者離開谷歌創業
Transformer論文引用破4萬,兩位作者離開谷歌創業

當然,這并不是什麼新鮮概念。《深度學習》一書作者、被稱為「世界 AI 之父」的特倫斯 · 謝諾夫斯基(Terry Sejnowski)早在 2019 年就說過,「在未來,人類與機器将是合作而非競争關系」。作為實作 AGI 之前的過渡階段,「協作智能」的概念越來越受關注。澳洲最大的國家級科研機構——CSIRO 首席研究科學家 Cécile Paris 甚至指出,「(協作智能)将成為數字化轉型的下一個科學前沿」。目前,國内外都湧現了很多以「用 AI 增強人類能力」為願景的技術公司,比如循環智能、容聯雲等。在真正的 AGI 實作之前,可能會有越來越多的公司選擇這條路線。

David Luan 透露,目前 Adept 已經拿到了 6500 萬美元的融資,Uber CEO Dara Khosrowshahi、特斯拉 AI 進階總監 Andrej Karpathy 等人都是他們的天使投資人。

Transformer論文引用破4萬,兩位作者離開谷歌創業

參考連結:https://www.adept.ai/post/introducing-adept

繼續閱讀