天天看點

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

作者:智東西
Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

智東西

編譯 | 香草

編輯 | 李水青

智東西10月19日報道,今天,斯坦福大學基礎模型研究中心(CRFM)聯合斯坦福以人為本AI研究所(HAI)、麻省理工學院媒體實驗室、普林斯頓大學資訊技術中心共同釋出了2023基礎模型透明度指數(Foundation Model Transparency Index,FMTI),并對10個主流基礎模型進行了透明度評級。

評級結果表明,即使是得分最高的Meta Llama2也僅在滿分100分中獲得54分,OpenAI的GPT-4獲得48分,排名第三。10個基礎模型的平均得分僅為37分。

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

2023年基礎模型透明度指數總分(圖源:CRFM)

為了建構FMTI,團隊定義了三個領域的100個名額,并将它們劃分為13個子域進行了進一步分析。

雖然整體平均分僅為37分,但該團隊稱,100個名額中有82項獲得了至少一個模型的滿足,這意味着開發商可以通過采用競争對手的最佳實踐,來顯著提高模型的透明度。

此外,開源基礎模型在這項評級中取得領先地位。

在三家開源基礎模型開發商Meta、Hugging Face和Stability AI中,有兩家得分最高,這兩家公司都允許下載下傳其模型權重。Stability AI則緊随OpenAI之後,排名第四。

團隊聲明,在完成打分後,他們聯系了這10家開發商進行回報。所有10家開發商都對評分做了回應,其中8家提出了異議,上圖是在解決了開發商的反駁之後的最終得分。

論文位址:https://crfm.stanford.edu/fmti/fmti.pdf

部落格位址:https://crfm.stanford.edu/fmti

一、定義三大領域100個名額,通過13個子域進一步分析

在10家開發商的選取上,團隊稱主要基于其影響力、異質性(Heterogeneity)以及影響地位進行選擇,并系統地收集了這10家公司截至2023年9月15日公開釋出的資訊。

為了建立FMTI,團隊提出了100個不同的透明度名額,用于評估開發商在開發和部署基金會模型方面的透明度。這100個名額又被劃分為三大領域:

1、上遊(Upstream)

上遊名額展現了建構基礎模型所涉及的成分和過程,例如用于建構基礎模型的計算資源、資料和勞動力等。

2、模型(Model)

模型名額展現基礎模型的屬性和功能,如模型的架構、能力和風險。

3、下遊(Downstream)

下遊名額展現基礎模型的分發和使用方式,如模型對使用者的影響、模型的任何更新以及管理其使用的政策。

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

按三大領域劃分,10個基礎模型提供商獲得的分數(圖源:CRFM)

除了以上三個頂級域之外,團隊還将名額分組為13個子域(Subdomain)。

這13個子域分别是資料(Data)、人力(Labor)、計算(Compute)、方法(Methods)、模型基礎(Model Basics)、模型通路(Model Access)、性能(Capabilities)、風險(Risks)、緩解措施(Mitigations)、分布(Distribution)、使用政策(Usage Policy)、回報(Feedback)、影響(Impact)。

子域為模型的評級提供了更精細、更直覺的分析,如下圖所示。圖中每個子域都包含三個或三個以上的名額。

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

按13個子域劃分,10個基礎模型提供商獲得的分數(圖源:CRFM)

由圖中資料可以看出,資料、人力和計算是開發人員的盲點。

在建構基礎模型所需的資源方面,開發人員的透明度最低。所有開發人員在資料、人力和計算方面的得分總和僅占總分的20%、17%和17%。

其次,開發商在使用者資料保護和模型基本功能方面更加透明。

開發商在使用者資料保護、模型開發細節、模型功能和局限性相關的名額上得分較高,均超出60%。這反映出各開發商在如何處理使用者資料及其産品基本功能方面的透明度達到了一定的基準水準。

此外,即使在開發商透明度最高的子領域,也仍有改進的餘地。

沒有一家開發商提供有關其如何提供、使用資料的過程資訊。隻有少數幾家開發商在展示其模型的局限性,或讓第三方評估模型能力方面是透明的。

雖然每個開發商都描述了其模型的輸入和輸出模式,但隻有三家開發商披露了模型的組成部分,隻有兩家開發商披露了模型的大小。

二、開源vs閉源?13個子域中,開源基礎模型9項領先

AI領域當下最具争議的辯論之一,就是AI模型應該開放還是封閉。

團隊稱,雖然AI的釋出政策并非二進制對立,但在名額分析中,他們将權重可廣泛下載下傳的模型視作開源模型。

該評級選取的10家開發商中,有3家是開源的積極踐行者,他們的模型權重可供下載下傳。其他7家開發商則采取閉源方式,其模型權重不能公開下載下傳,必須通過API(應用程式接口)通路。

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

開源模型在評級中處于領先地位(圖源:CRFM)

團隊稱,盡管閉源基礎模型更容易滿足該評級的許多名額,但開源基礎模型在許多透明度方面獲得了更高的評分。

例如,一些名額評估了下遊使用的政策。由于閉源模型通常隻通過API提供通路,是以他們可以更容易地分享與下遊使用相關的資訊,而開源模型的開發商則需要與下遊部署者合作才能獲得此類資訊。

從理論上講,這意味着閉源模型在這些名額上的得分要高得多,但團隊稱并沒有發現實質性的差别。不過,一些閉源模型開發商在這些名額上的表現确實更好,其中以OpenAI為首。

Llama 2第一、GPT-4第三!斯坦福大模型最新測評出爐

開源和閉源模型在13個子域評級中的平均透明度評分(圖源:CRFM)

總分方面,開源基礎模型開發商遙遙領先。

團隊認為,開源模型與閉源模型之間的差距是由上遊名額造成的,例如開發模型所使用的資料、人力和計算細節。近年來,許多閉源模型開發商對其模型訓練方法越來越保密。

三、訴訟、競争、安全,大模型開發商對于開源的憂慮

《紐約時報》的記者Kevin Roose談道,當他詢問AI公司的高管,為什麼不公開分享更多關于他們模型的資訊時,通常會得到三種答案。

其一是訴訟。

目前,包括OpenAI在内,已經有多家AI公司被作家、藝術家或媒體公司起訴,指控他們非法使用受版權保護的作品來訓練AI模型。

大多數訴訟針對開源AI項目,或是披露了其模型詳細資訊的項目。AI公司的律師們擔心,他們對模型的建構過程說得越多,就越會讓自己面臨昂貴、惱人的訴訟。

其二是競争。

大多數AI公司認為,他們的模型之是以有效,是因為他們擁有某種秘訣——其他公司沒有的高品質資料集、能産生更好結果的微調技術、能讓他們獲得優勢的某種優化。

他們認為,如果強迫AI公司公開這些“秘方”,就會把他們來之不易的智慧拱手讓給競争對手,讓對手輕而易舉地複制這些智慧。

其三是安全問題。

一些AI專家認為,AI公司公開其模型的資訊越多,AI的進步就會越快,因為每家公司都會看到競争對手在做什麼,并立即嘗試通過建立更好、更大、更快的模型來超越他們。

他們認為,如果AI的能力發展得太快,所有人都會處于危險之中,因為社會沒有那麼多時間來監管和減緩AI的發展。

對此,斯坦福大學的研究人員并不相信這些回答。

他們認為,應該向AI公司施壓,讓它們盡可能多地釋出有關基礎模型的資訊,因為使用者、研究人員和監管機構需要了解這些模型是如何工作的,它們有哪些局限性、危險性。

結語:基礎模型社會影響力不斷攀升,透明度問題不可忽視

随着基礎模型變得越來越強大,AI工具在人們日常生活扮演者愈發重要的角色,模型透明度問題不可忽視。

更多地了解這些基礎模型的訓練、部署方式,系統的工作原理,構模組化型的資料集和資料來源等,将使監管機構、研究人員和使用者更好地了解AI系統,對于保持開發商的責任感和了解基礎模型的社會影響尤為重要。

AI革命不能在黑暗中進行。如果想讓AI改變我們的生活,我們就必須了解它的“黑匣子”。

來源:CRFM、《紐約時報》

繼續閱讀