GPT-4評估方法的突破性進展：可靠性與人類評估一緻性超過80%

最近的讨論集中在LLM（語言模型評估）上，特别強調了使用GPT-4進行比較的可擴充性和成本效益。這種方法涉及使用一個模型來評估同一問題的不同答案，并選擇最佳答案以建立排名系統。然而，這種方法存在明顯的局限性。是以，LMSYS.org評級的建立者決定采用一種新的評估方法來取代它。

開發人員推出了基于GPT-4的新的自我評估LLM方法，其與人工評估實作了80%的一緻性。在他們的工作過程中，該團隊收集了大量真實人類回答，并比較了對不同答案的偏好。這個廣泛的資料集使他們能夠更準确地了解每個響應所涉及的利弊。新的評估方法仍然依賴于GPT-4，但具備自動化和可擴充性，而且價格實惠，每個人都可以使用。

更多AI資訊，請關注公衆号“巨星雲”“未來AI工具”。

為了確定使用GPT-4的評估過程公平，他們解決了以下挑戰：

位置偏好導緻的評估偏差。
偏向冗長答案而不考慮其品質。
自我斷言偏差，即傾向于模型自身的答案或基于模型訓練的答案。
在評估數學和邏輯問題時推理能力有限。

文章附有一些插圖，展示了80個評估問題的情況。對于每組問題，同一問題有兩個部分。您可以在專用網站（

通過實施各種解決方案來緩解這些問題，作者發現像GPT-4這樣強大的語言模型與人類偏好非常吻合，評估中實作了超過80%的一緻性。這意味着該模型的評估與80%的人類評級一緻，與兩個不同人類評估者從事同一任務的一緻性相當。OpenAI還報告稱，即使是共同作者，在82-86%的情況下也達成了一緻意見。

這個基準證明了模型在各種問題集上的明顯差異。尤其在推理和編碼方面，模型的水準遠遠超過了GPT-4。然而，該模型仍可用于角色扮演和編寫普通文本。作者還釋出了新的Vicuna v1.3模型，其參數規模從7億到33億不等（

需要注意的是，盡管這不是一種"完美的評估方式"，但它代表了對以前方法的顯著改進。作者的目标是擴充資料集，包括1000個問題，而不僅僅是80個，并且他們正在積極改進提示，以減少GPT-4評估中的偏差。他們還考慮了兩種更客觀的評估方法：基于真人投票的Elo分數（稱為"競技場"，進行模型競争）和基于MMLU基準的預測。

另一個有趣的事實是，GPT-4模型是唯一在回答第二個問題時保持品質的模型。這引發了一些争議，原因有兩個：首先，模型仍然是自我評估的；其次，雖然差異可以忽略不計，但這說明其他模型在遵循多輪對話和指令方面的不足。

随着駱馬、考拉和多莉等各種語言模型的出現，使用GPT-4進行比較的方法越來越受歡迎。提供了一個獨特的提示，其中包含來自模型A和模型B的兩個答案，并要求評估者按1到8的等級對其進行評分，1表示模型A明顯更好，8表示平局，4-5表示平局，2-3和6-7表示"更好的模型"。

交換模型A和模型B不會顯著影響分數（例如，7變成2，8變成1），并且一個模型的持續優勢将導緻其勝利，這似乎是合乎邏輯的。然而，出現了"位置偏差"現象，其中模型更頻繁地将較高的分數配置設定給模型A（一）。為了確定公平性，人工評估解釋了這種偏見。

HuggingFace團隊進行的一項有見地的研究評估了四個模型在329個不同問題上的答案。在這項有趣的研究中，發現以下情況：

基于成對比較的四個模型的排名在人工評估和GPT-4之間是一緻的，盡管觀察到不同的Elo評級差距。這表明該模型可以區分好的和壞的答案，但在一些邊緣案例中與人工評估不太一緻。
有趣的是，該模型對其他模型的答案進行評分，特别是那些在GPT-4答案上訓練的模型，高于真實人類答案。
GPT-0的得分與回答中唯一令牌的數量之間存在高度相關性（Pearson=96.4）。這表明該模型沒有很好地評估答案的品質，強調了需要謹慎解釋的重要性。

這些發現強調了在使用GPT-4進行模型比較時進行仔細評估的重要性。盡管該模型在一定程度上可以區分答案的好壞，但其評估可能并不總是與人工評估完全一緻，特别是在細微的情景中。是以，在僅依賴GPT-4分數時，謹慎行事并考慮其他因素至關重要。通過改進提示和結合各種評估方法，研究人員的目标是提高GPT-4評估的可靠性和準确性。