天天看點

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

作者:寫新AixNew

最近的讨論集中在LLM(語言模型評估)上,特别強調了使用GPT-4進行比較的可擴充性和成本效益。這種方法涉及使用一個模型來評估同一問題的不同答案,并選擇最佳答案以建立排名系統。然而,這種方法存在明顯的局限性。是以,LMSYS.org評級的建立者決定采用一種新的評估方法來取代它。

開發人員推出了基于GPT-4的新的自我評估LLM方法,其與人工評估實作了80%的一緻性。在他們的工作過程中,該團隊收集了大量真實人類回答,并比較了對不同答案的偏好。這個廣泛的資料集使他們能夠更準确地了解每個響應所涉及的利弊。新的評估方法仍然依賴于GPT-4,但具備自動化和可擴充性,而且價格實惠,每個人都可以使用。

更多AI資訊,請關注公衆号“巨星雲”“未來AI工具”。

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

為了確定使用GPT-4的評估過程公平,他們解決了以下挑戰:

  1. 位置偏好導緻的評估偏差。
  2. 偏向冗長答案而不考慮其品質。
  3. 自我斷言偏差,即傾向于模型自身的答案或基于模型訓練的答案。
  4. 在評估數學和邏輯問題時推理能力有限。

文章附有一些插圖,展示了80個評估問題的情況。對于每組問題,同一問題有兩個部分。您可以在專用網站(

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

通過實施各種解決方案來緩解這些問題,作者發現像GPT-4這樣強大的語言模型與人類偏好非常吻合,評估中實作了超過80%的一緻性。這意味着該模型的評估與80%的人類評級一緻,與兩個不同人類評估者從事同一任務的一緻性相當。OpenAI還報告稱,即使是共同作者,在82-86%的情況下也達成了一緻意見。

這個基準證明了模型在各種問題集上的明顯差異。尤其在推理和編碼方面,模型的水準遠遠超過了GPT-4。然而,該模型仍可用于角色扮演和編寫普通文本。作者還釋出了新的Vicuna v1.3模型,其參數規模從7億到33億不等(

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

需要注意的是,盡管這不是一種"完美的評估方式",但它代表了對以前方法的顯著改進。作者的目标是擴充資料集,包括1000個問題,而不僅僅是80個,并且他們正在積極改進提示,以減少GPT-4評估中的偏差。他們還考慮了兩種更客觀的評估方法:基于真人投票的Elo分數(稱為"競技場",進行模型競争)和基于MMLU基準的預測。

另一個有趣的事實是,GPT-4模型是唯一在回答第二個問題時保持品質的模型。這引發了一些争議,原因有兩個:首先,模型仍然是自我評估的;其次,雖然差異可以忽略不計,但這說明其他模型在遵循多輪對話和指令方面的不足。

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

随着駱馬、考拉和多莉等各種語言模型的出現,使用GPT-4進行比較的方法越來越受歡迎。提供了一個獨特的提示,其中包含來自模型A和模型B的兩個答案,并要求評估者按1到8的等級對其進行評分,1表示模型A明顯更好,8表示平局,4-5表示平局,2-3和6-7表示"更好的模型"。

交換模型A和模型B不會顯著影響分數(例如,7變成2,8變成1),并且一個模型的持續優勢将導緻其勝利,這似乎是合乎邏輯的。然而,出現了"位置偏差"現象,其中模型更頻繁地将較高的分數配置設定給模型A(一)。為了確定公平性,人工評估解釋了這種偏見。

GPT-4評估方法的突破性進展:可靠性與人類評估一緻性超過80%

HuggingFace團隊進行的一項有見地的研究評估了四個模型在329個不同問題上的答案。在這項有趣的研究中,發現以下情況:

  1. 基于成對比較的四個模型的排名在人工評估和GPT-4之間是一緻的,盡管觀察到不同的Elo評級差距。這表明該模型可以區分好的和壞的答案,但在一些邊緣案例中與人工評估不太一緻。
  2. 有趣的是,該模型對其他模型的答案進行評分,特别是那些在GPT-4答案上訓練的模型,高于真實人類答案。
  3. GPT-0的得分與回答中唯一令牌的數量之間存在高度相關性(Pearson=96.4)。這表明該模型沒有很好地評估答案的品質,強調了需要謹慎解釋的重要性。

這些發現強調了在使用GPT-4進行模型比較時進行仔細評估的重要性。盡管該模型在一定程度上可以區分答案的好壞,但其評估可能并不總是與人工評估完全一緻,特别是在細微的情景中。是以,在僅依賴GPT-4分數時,謹慎行事并考慮其他因素至關重要。通過改進提示和結合各種評估方法,研究人員的目标是提高GPT-4評估的可靠性和準确性。