天天看點

GPT-4背後的開發者:七大團隊,三十餘位華人

始于谷歌,發迹于 OpenAI,這是很多 GPT-4 貢獻者的職業軌迹。

這個星期,OpenAI 大模型 GPT-4 的釋出讓全球科技圈的技術競争進入了白熱化。幾天之内,ChatGPT、必應搜尋和 Microsoft 365 相繼接入 GPT-4,微軟的 AI 應用瞬間比競争對手拉開一個身位,甚至有人說,新的工業革命開始了。

一方面我們被 GPT-4 的效果所震撼,一方面我們也迫不及待的想要了解背後的技術,好奇它的訓練方法、使用的算力等。

但遺憾的是,OpenAI 并不 Open。在公開的論文(其實更像技術報告)中,OpenAI 明确地說,GPT-4 模型使用 RLHF 精調外,不會公開任何技術細節。

GPT-4背後的開發者:七大團隊,三十餘位華人

鑒于 GPT-4 等大型模型的競争性與安全影響,本報告不包含有關架構(包括模型大小)、硬體、訓練計算、資料集建構、訓練方法等更多詳細資訊。

不過,在此報告中,OpenAI 詳細列出了貢獻者及其負責的工作内容。這值得我們細緻研究。這幾百人的貢獻者名單與分類,能讓我了解到 GPT-4 的成功背後包含了哪些部門、技術分枝的努力。

在這篇文章中,我們對有代表性的貢獻者進行了盤點,期待能為讀者帶來啟發。

研發人員占絕大多數

從組織架構的設定上看,GPT-4 幕後的研發團隊大緻可分為七個部分:預訓練(Pretraining)、長上下文(Long context)、視覺(Vision)、強化學習 & 對齊(RL & alignment)、評估 & 分析(Evaluation & analysis)、部署(Deployment),以及其他貢獻者(Additional contributions)。

預訓練部分的工作細分為:

計算機叢集擴充(Compute cluster scaling)

資料(Data)

分布式訓練基礎設施(Distributed training infrastructure)

硬體正确性(Hardware correctness)

優化 & 架構(Optimization & architecture)

Training run babysitting

長上下文部分的工作細分為:

長上下文研究(Long context research)

長上下文核心(Long context kernels)

視覺部分的工作細分為:

架構研究(Architecture research)

計算機叢集擴充(Compute cluster scaling)

分布式訓練基礎設施(Distributed training infrastructure)

硬體正确性(Hardware correctness)

資料(Data)

對齊資料(Alignment Data)

Training run babysitting

部署 & 後訓練(Deployment & post-training)

強化學習 & 對齊部分的工作細分為:

資料集貢獻(Dataset contributions)

資料基礎設施(Data infrastructure)

ChatML 格式(ChatML format)

模型安全(Model safety)

Refusals

基礎 RLHF 和 InstructGPT 工作(Foundational RLHF and InstructGPT work)

Flagship training runs

代碼功能(Code capability)

評估 & 分析部分的工作細分為:

OpenAI Evals 庫

模型等級評估基礎設施(Model-graded evaluation infrastructure)

加速預測(Acceleration forecasting)

ChatGPT 評估

能力評估(Capability evaluations)

編碼評估(Coding evaluations)

真實世界用例評估(Real-world use case evaluations)

污染調查(Contamination investigations)

指令遵循和 API 評估(Instruction following and API evals)

新功能評估(Novel capability discovery)

……

細讀貢獻者名單,不難發現,GPT-4 項目團隊的成員通常「身兼數職」。對于希望追趕 ChatGPT 的科技公司來說,OpenAI 提供的部門架構樣闆提供了一些可以學習的思路。另外,它對于 AI 領域人才的未來發展方向或許也有一些啟示。

在 ChatGPT 釋出之後,OpenAI 在人才招聘方面也做出了一些調整,招募了數十名前谷歌和 Meta 員工來建立人工智能聊天機器人。

在 OpenAI 上,谷歌作為「矽谷黃埔軍校」的名頭算是坐實了:根據 LeadGenius 和 Punks & Pinstripes 的資料顯示,該公司的 300 多名員工(資料截止到 2023 年 1 月)中有許多來自谷歌和 DeepMind 的母公司 Alphabet。資料顯示,OpenAI 目前雇傭了約 59 名谷歌前員工和約 34 名 Meta 前員工,同時包括幾名蘋果和亞馬的前遜員工。

GPT-4背後的開發者:七大團隊,三十餘位華人

鑒于 OpenAI 在 GPT-4 釋出的第一時間就公開了所有貢獻者名單,機器之心整理了一部分參與工作的華人學者。如果遺漏,歡迎補充。

預訓練組

Trevor Cai

Trevor Cai 是 GPT-4 項目中吞吐量團隊的負責人。Trevor Cai 本碩畢業于南加州大學,2022 年 3 月加入 OpenAI。在加入 OpenAI 之前,Trevor Cai 曾在 DeepMind 工作近 5 年,擔任軟體工程師。

袁啟明

GPT-4背後的開發者:七大團隊,三十餘位華人

袁啟明(Qiming Yuan)是 GPT-4 項目資料集來源和處理團隊的負責人。袁啟明大學畢業于清華大學,碩士畢業于得克薩斯大學奧斯汀分校,2018 年加入 OpenAI。此前,袁啟明曾在微軟工作近三年。

Che Chang

Che Chang 作為 OpenAI 的副總法律顧問參與了 GPT-4 的研發,他博士畢業于美國西北大學,2021 年加入 OpenAI,此前在 AWS 上司了人工智能 / 機器學習和市場業務的法律團隊。最近一段時間,OpenAI 的法律團隊還在招聘 AI 産品顧問。

歐陽龍

歐陽龍 2019 年加入 OpenAI,擔任研究科學家。Long Ouyang 大學畢業于哈佛大學,博士畢業于斯坦福大學,曾在斯坦福大學任博士後研究員。歐陽龍也參與研發了 ChatGPT 相關的技術項目,他還是 InstructGPT 論文的第一作者。

翁麗蓮

GPT-4背後的開發者:七大團隊,三十餘位華人

翁麗蓮(Lilian Weng)是 OpenAI 人工智能應用研究的負責人,2018 年加入 OpenAI,在 GPT-4 項目中主要參與預訓練、強化學習 & 對齊、模型安全等方面的工作。

Tao Xu

Tao Xu 2019 年加入 OpenAI,先後畢業于北京大學、康奈爾大學。Tao Xu 曾在微軟的必應機器學習研究組工作四年。

Jie Tang

GPT-4背後的開發者:七大團隊,三十餘位華人

Jie Tang 在加州大學伯克利分校獲得計算機科學博士學位,導師是 Pieter Abbeel。加入 OpenAI 前,他曾在初創公司和 Dropbox 工作約四年時間。Jie Tang 大學就讀于哈佛大學,2008 年獲得計算機科學和經濟學學士學位。

Ben Wang

Ben Wang 目前是賓夕法尼亞大學大學生,2021 年加入 OpenAI。Ben Wang 參與了 GPT-4 項目的預訓練和長上下文方面的工作。

視覺組

Mark Chen

GPT-4背後的開發者:七大團隊,三十餘位華人

Mark Chen 2018 年加入 OpenAI,任研究科學家,畢業于麻省理工學院(MIT)。他參與了 GPT-4 項目中視覺方面的工作。

Casey Chu

Casey Chu2020 年加入 OpenAI,畢業于斯坦福大學計算數學專業。Casey Chu 的主要研究方向是多模态 AI 系統,他在 GPT-4 項目中主要參與視覺方面的工作。

胡繩麗

GPT-4背後的開發者:七大團隊,三十餘位華人

胡繩麗(Shengli Hu)2022 年加入 OpenAI,她碩士畢業于複旦大學、博士畢業于康奈爾大學。她的研究興趣在于社會科學、計算語言學、計算機視覺和語音的跨學科研究。胡繩麗曾在自然語言處理、計算機視覺、語音和應用統計方面的頂級會議和期刊上發表過多篇論文,包括 CVPR、ACL、EMNLP、ECCV 等等,并獲得過最佳論文獎提名。

Tianhao Zheng

Tianhao Zheng2022 年加入 OpenAI。他大學畢業于清華大學,博士畢業于得克薩斯大學奧斯汀分校。再加入 OpenAI 之前,他曾先後在英偉達、谷歌、Twitter 工作過。Tianhao Zheng 在 GPT-4 項目中主要參與了視覺方面的工作。

翁家翌

GPT-4背後的開發者:七大團隊,三十餘位華人

翁家翌(Jiayi Weng)2020 年在清華大學計算機科學與技術系獲得大學學位。大學在朱軍教授組學習期間,主要參與了強化學習算法庫 Tianshou(天授)的開發,該項目已獲得 5.9K GitHub Star。CMU 碩士畢業後,翁家翌加入 OpenAI 任研究工程師。

強化學習 & 對齊組

Chong Zhang

GPT-4背後的開發者:七大團隊,三十餘位華人

Chong Zhang 2010 年就讀浙江大學計算機系,2014 年在加拿大西蒙弗雷澤大學獲得學士學位,随後在谷歌、蘋果公司擔任工程師。2019 年就讀加州大學洛杉矶分校,2021 年獲得計算機碩士學位後,在 OpenAI 工作至今。

Shengjia Zhao

GPT-4背後的開發者:七大團隊,三十餘位華人

Shengjia Zhao2016 年大學畢業于清華大學,2022 年在斯坦福大學獲得計算機科學博士學位,師從 Stefano Ermon,随後加入 OpenAI。

Stephanie Lin

GPT-4背後的開發者:七大團隊,三十餘位華人

Stephanie Lin 大學和碩士期間分别就讀于麻省理工學院和佐治亞理工學院。加入 OpenAI 之前,她曾是牛津大學研究學者。

Tong Mu

GPT-4背後的開發者:七大團隊,三十餘位華人

Tong Mu 大學就讀于加州大學洛杉矶分校,後在斯坦福大學獲得博士學位。2022 年加入 OpenAI。

Jeff Wu

GPT-4背後的開發者:七大團隊,三十餘位華人

Jeff Wu 本碩均就讀于麻省理工學院。他是初創公司 Terminal.com 的第二名員工,該公司被收購後,他曾在谷歌工作約 2 年的時間。2018 年,Jeff Wu 加入 OpenAI。

肖凱

GPT-4背後的開發者:七大團隊,三十餘位華人

肖凱(Kai Xiao)在麻省理工學院獲得了學士學位和博士學位,曾在微軟、DeepMind 等機構實習。2022 年 9 月加入 OpenAI。

Kevin Yu

GPT-4背後的開發者:七大團隊,三十餘位華人

Kevin Yu 在加州大學伯克利分校獲得實體學學士學位及神經科學博士學位。2022 年加入 OpenAI。

Haozhun Jin

GPT-4背後的開發者:七大團隊,三十餘位華人

Haozhun Jin2013 年大學畢業于清華大學計算機系,2015 年獲得斯坦福大學碩士學位。2015 年到 2018 年,他在 Meta 擔任軟體工程師,2023 年 1 月加入 OpenAI。

顧世翔

GPT-4背後的開發者:七大團隊,三十餘位華人

顧世翔是出生于日本的加拿大華人,曾是谷歌研究院研究科學家,研究領域包括深度學習、強化學習、機率機器學習和機器人技術。他擁有劍橋大學和馬普所智能系統研究所的機器學習博士學位,在多倫多大學獲得了工程科學學士學位,論文指導教授為 Geoffrey Hinton。

評估 & 分析團隊

Alvin Wang

GPT-4背後的開發者:七大團隊,三十餘位華人

Alvin Wang2022 年 8 月加入 OpenAI,為評估 & 分析團隊核心貢獻者之一。此前他曾在 VMware、Tesla 等公司工作過幾年。2013 年大學畢業于南加州大學。

Angela Jiang

GPT-4背後的開發者:七大團隊,三十餘位華人

Angela Jiang 于 2021 年 11 月加入 OpenAI,在微軟和谷歌有過短暫的工作經曆,她大學畢業于西北大學,于 CMU 獲得博士學位。

Jason Wei

GPT-4背後的開發者:七大團隊,三十餘位華人

Jason Wei 于今年 2 月加入 OpenAI,主要研究 ChatGPT。此前他是谷歌 Brain 的進階研究科學家,在那裡推廣了思維鍊提示,并共同上司了指令調優工作。他在谷歌和 Jeff Dean 等人共同撰寫了關于大模型湧現能力的論文。

Juntang Zhuang

GPT-4背後的開發者:七大團隊,三十餘位華人

Juntang Zhuang 于 2022 年 4 月加入 OpenAI,此前曾在谷歌實習四個月。他大學畢業于清華大學,碩士畢業于耶魯大學,并在耶魯大學拿到博士學位。他的研究主要是為生物醫學應用開發新的機器學習技術。

Derek Chen

GPT-4背後的開發者:七大團隊,三十餘位華人

Derek Chen 于 2021 年加入 OpenAI,是一名技術安全分析師。他畢業于美國東北大學,此前在谷歌工作過不到一年的時間。

宋飏

GPT-4背後的開發者:七大團隊,三十餘位華人

宋飏(Yang Song)目前在 OpenAI 擔任研究員,并将于 2024 年 1 月加入加州理工學院電子系(Electrical Engineering)和計算數學科學系(Computing and Mathematical Sciences)擔任助理教授。宋飏大學畢業于清華大學數理基礎科學班,2022 年獲得斯坦福大學計算機科學博士學位,師從 Stefano Ermon。他的主要研究方向是機器學習,包含深度生成式模型(deep generative models),機率推理(probabilistic inference),人工智能安全性(AI safety),以及人工智能方法與其他科學領域的交叉(AI for science)。他是擴散模型(diffusion models)和分數比對生成式模型(score-based generative models)的主要創始者之一。他發表在 NeurIPS 2019 的工作首次在圖檔生成品質上實作了對生成對抗網絡(GAN)的超越。博士期間他的一作論文獲得了 ICLR 2021 傑出論文獎,相關研究獲得了蘋果獎學金、摩根大通獎學金,以及 WAIC 雲帆獎。

模型部署

Michael Wu

GPT-4背後的開發者:七大團隊,三十餘位華人

Michael Wu 2021 年加入 OpenAI,主要的工作是人工智能應用研究。Michael Wu 畢業于 MIT,是 GPT-4 項目的推理研究負責人。

Andrew Peng

GPT-4背後的開發者:七大團隊,三十餘位華人

Andrew Peng 2022 年底加入 OpenAI,他曾經在微軟工作兩年。Andrew Peng 畢業于加州大學伯克利分校,主要參與 GPT-4 API 和 ChatML 部署方面的工作。

吳雪楓

GPT-4背後的開發者:七大團隊,三十餘位華人

吳雪楓(Sherwin Wu)2022 年加入 OpenAI,主要的工作是人工智能應用及 API 開發。吳雪楓畢業于 MIT,在 GPT-4 項目中主要參與 API 開發和 ChatML 部署方面的工作。

Jason Chen

GPT-4背後的開發者:七大團隊,三十餘位華人

Jason Chen 大學就讀于麻省理工學院,2007 年到 2014 年期間在谷歌擔任軟體工程師,2014 年到 2019 年任職于初創公司 Apptimize,2019 年到 2023 年 2 月任職于 Argo AI,2023 年 2 月加入 OpenAI。

其他貢獻者

Xin Hu

GPT-4背後的開發者:七大團隊,三十餘位華人

Xin Hu 于 2022 年 6 月加入 OpenAI,主要負責開發用于雲安全、k8s 安全、認證 / 授權和通路控制的安全服務和平台。

此外,在 GPT-4 的開發上 OpenAI 也對微軟表示了感謝,特别是微軟 Azure 服務為模型訓練提供了基礎架構設計和管理方面的支援,微軟必應團隊、安全團隊也對 GPT-4 的部署等工作作出了貢獻。

參考連結:

https://openai.com/contributions/gpt-4?continueFlag=ee0eebd278339fc5ba428add63b4b4fd

https://cdn.openai.com/papers/gpt-4-system-card.pdf

繼續閱讀