編輯：編輯部

【新智元導讀】I/O大會上，谷歌Gemini 1.5 Pro一系列更新讓開發者們再次沸騰。最新技術報告中，最引人注目的一點是，數學專業版1.5 Pro性能碾壓GPT-4 Turbo、Claude 3 Opus，成為全球最強的數學模型。

四個月的疊代，讓Gemini 1.5 Pro成為了全球最強的LLM（幾乎）。

谷歌I/O釋出會上，劈柴宣布了Gemini 1.5 Pro一系列更新，包括支援更長上下文200k，超過35種語言。

與此同時，新成員Gemini 1.5 Flash推出，設計體積更小，運作更快，還支援100k上下文。

最近，Gemini 1.5 Pro最新版的技術報告新鮮出爐了。

論文位址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

報告顯示，更新後的模型Gemini 1.5 Pro，在所有關鍵基準測試中，都取得了顯著進展。

簡單來說，1.5 Pro的性能超越了「超大杯」1.0 Ultra，而1.5 Flash（最快的模型）性能則接近1.0 Ultra。

甚至，新的Gemini 1.5 Pro和Gemini 1.5 Flash在大多數文本和視覺測試中，其性能還優于GPT-4 Turbo。

Jeff Dean發文稱，Gemini 1.5 Pro「數學定制版」在基準測試中，取得了破記錄91.1%成績。

而三年前的今天，SOTA僅為6.9%。

而且，數學專業版的 Gemini 1.5 Pro在數學基準上的成績，與人類專家的表現不相上下。

數學評測3年暴漲84.2%

對于這個「數學定制版」模型，團隊使用了多個由數學競賽衍生的基準測試評估Gemini的能力，包括MATH、AIME、Math Odyssey和團隊内部開發的測試HidemMath、IMO-Bench等。

結果發現，在所有測試中，Gemini 1.5 Pro「數學定制版」都明顯優于Claude 3 Opus和GPT-4 Turbo，并且相比通用版本的1.5 Pro有顯著改進。

特别是MATH測試中取得了91.1%的突破性成績，而且不需要使用任何定理證明庫或者谷歌搜尋等任何外部工具，這與人類專家的水準相當。

此外，在AIME測試集中，Gemini 1.5 Pro「數學定制版」能解決的問題數量是其他模型的4倍。

以下是兩道曾讓之前的模型束手無策的亞太數學奧林匹克競賽（APMO）題。

其中，上面的這個例子很有代表性，因為它是一道證明題，而不是計算題。

對此，Gemini給出的解法不僅直切要害，而且非常「漂亮」。

Gemini 1.5 Pro核心性能全面提升

文本評估

除了數學之外，更新後的1.5 Pro在推理、編碼、多模态多項基準測試中，取得了顯著的優勢。

甚至就連主打輸出速度的1.5 Flash，在性能上也不輸1.0 Ultra。

尤其是，在MMLU通用語言了解基準測試中，Gemini 1.5 Pro在正常的5個樣本設定中得分為85.9%，在多數投票設定中得分為91.7%，超過了GPT-4 Turbo。

與2月出版技術報告對比來看，新更新1.5 Pro在代碼兩項基準中，有了非常明顯的提升，從71.9%上漲到84.1%（HumanEval），從77.7%上漲到82.6%（Natural2Code）。

在多語種基準測試中，新更新1.5 Pro的能力略微下降。

此外，5月報告中，将數學和推理能力分開評測，在數學基準上，新更新1.5 Pro有所下降，從91.7%下降到90.8%。

在推理測試中，MMLU上的性能從81.9%提升到85.9%。

2月版

針對函數調用，1.5 Pro在多項任務中，除了多項函數，都拿下了最高分。1.5 Flash在多項函數任務中，取得了領先優勢。

在指令調優上，1.5 Pro面對更長指令1326提示時，回應準确率最高。而406更短指令，1.0 Ultra的表現更優秀。

涉及到更專業的知識問答時，1.5 Pro準确率幾乎與1.5 Flah持平，僅差0.6%，但都顯著優于1.0 Pro和1.0 Ultra。

針對STEM上下文問答任務中，在Qasper資料集上，Gemini 1.0和1.5準确率提升，與此同時不準确率顯著下降。

再來看偏好結果，針對不同提示，與1.0 Pro比起來，1.5 Pro和1.5 Flash相對得分更高。

多模态評估

針對多模态性能，技術報告中涉及了衆多基準測試，包括多模态推理、圖表與文檔、自然圖像以及視訊了解四個方面，共15個圖像了解任務以及6個視訊了解任務。

總體來看，除了一項測試之外，1.5 Pro的表現均能超過或者與1.0 Ultra相當，且輕量的1.5 Flash在幾乎所有測試中都超過了1.0 Pro。

可以看到1.5 Pro在多模态推理的4個基準測試上都有所提高。

在公認較為困難的MMMU測試中，1.5 Pro實作了從47.9%到62.2%的提升，在研究所學生水準的Ai2D測試上甚至達到了94.4%，1.5 Flash也有91.7%的高分。

對于多模态大模型，圖表和文檔的了解比較有挑戰性，因為需要對圖像資訊進行準确的解析和推理。

Gemini 1.5 Pro在ChartQA取得了87.2%的SOTA結果。

在TAT-DQA測試上，分數從1.0 Pro的9.9%升至37.8%，1.5 Flash相比1.0 Ultra也有将近10%的提高。

此外，團隊建立了BetterQA等9個互不相交的能力測試。結果顯示，相比上一代的1.0 Pro，1.5 Pro總體達到了20%以上的提升。

自然圖像了解方面的測試，重點關注模型的對實體世界的了解以及空間推理能力。

在專門的V*測試中，1.5 Pro和測試提出者所發表的模型SEAL幾乎表現相當。

在人類擅長而模型不擅長的Blink測試中，1.5 Pro實作了從45.1%（1.0 Pro）到61.4%的提升，Flash分數相近（56.5%），依舊高于1.0 Ultra（51.7%）。

除了「大海撈針」，團隊也為Gemini 1.5 Pro進行了其他視訊了解方面的基準測試，但提升不如前三個方面那樣顯著。

在VATEX英文和中文的兩個測試中，對比2月份釋出的Gemini 1.5 Pro的技術報告，三個月訓練後的提升不超過2分。

在YouCook2測試中，1.5 Pro似乎始終不能達到1.0 Ultra的135.4分，而且相比2月技術報告中的134.2下降到了最新的106.5。

有趣的是，在OpenEQA的零樣本測試上，1.5 Flash得分63.1，甚至超過了1.5 Pro的57.9。技術報告中解釋，這是由于1.5 Pro拒絕回答某些問題造成的。

2月版

對比GPT-4、Claude 3優勢明顯

接下來，再看看橫向對比，新更新的1.5 Pro與GPT-4、Claude模型相較下的性能如何。

模型診斷能力改進

如下展示的是，在2000個MRCR任務執行個體中，字元串相似度累積平均得分與上下文長度的函數關系。

在與GPT-4 Turbo和Claude 2.1進行比較時，研究人員發現分别在8K和20K個詞組之後，1.5 Pro和1.5 Flash的性能大大優于這兩個模型。

随着上下文長度的增加，1.5 Pro和1.5 Flash的性能下降幅度大大縮小，最高可達100萬個token。

在将小語種Kalamang翻譯成英語的量化結果如下所示。

新更新的1.5 Pro在喂了半本書，甚至全本書的資料之後，性能得到大幅提升，并優于GPT-4 Turbo和Claude 3的表現。

而在将英語翻譯成Kalamang語言的量化結果中，1.5 Pro的勝率也是最高的。

低資源機器翻譯的長上下文擴充

再來看，在「低資源」機器翻譯中，模型的上下文學習擴充（Scaling）表現。

随着樣本數量不斷增加，1.5 Pro的翻譯性能越來越好，大幅超越了GPT-4 Turbo。

長上下文文本QA

針對長文本的問答，1.5 Pro在710k上下文文中，表現顯著優于GPT-4 Turbo。并且，超越了沒有上下文，以及在RAG加持下，支援4k上下文的1.5 Pro。

長上下文音頻

在音頻長上下文的測試中，每個模型的單詞錯誤率表現又如何？

可以看到，1.5 Pro僅有5.5%，而OpenAI的Whisper模型的錯誤率高達12.5%。

但與2月版的報告相比，1.5 Pro的音頻長下文單詞錯誤率還是有所下降。

2月版

長上下文視訊QA

針對1個小時的視訊問答任務，1.5 Pro在不同基準上準确率實作與3分鐘視訊任務準确率，基本持平一緻。

再來看去年2月版的對比，1.5 Pro在1小時任務中的準确率有了很大提升，從最高0.643上漲到0.722。還有在3分鐘視訊QA任務中，從0.636上漲到0.727。

2月版

在1H-VideoQA測試中，團隊在時長1小時的視訊中每秒取1幀畫面，最終線性下采樣至16幀或150幀，分别輸入給GPT-4V與Gemini 1.5進行問答。

無論幀數多少，Gemini 1.5 Pro的表現均強于GPT-4V，其中在16幀測試的優勢最為明顯（36.5% vs. 45.2%）。

在觀看整個視訊後進行回答時，Gemini 1.5 Pro從2月的64.3%提升至72.2%。

2月版

長上下文規劃

「推理」和「規劃」技能對解決問題都很重要，雖然LLM在推理上進展顯著，但規劃依舊很難。

這篇報告專門呈現了Gemini 1.5的規劃能力測試，涉及到移動積木、安排物流路線、室内導航、規劃日程和旅行路線等任務場景。

測試中，模型必須根據給定任務，一次性地快速生成解決方案，類似于人類的「頭腦風暴」過程。

總體上，Gemini 1.5 Pro在絕大多數情況下的表現優于GPT 4 Turbo，不僅能在少樣本時較好進行規劃，還能更有效地利用額外的上下文資訊。

更輕量的Gemini 1.5 Flash表現始終不敵Gemini 1.5 Pro，但在幾乎一半的情況下可以與GPT-4 Turbo的表現相當。

GPT-4 Turbo的在BlocksWorld中的零樣本表現接近于零，而Gemini 1.5 Pro和Flash分别達到了35%和26%。

Calendar Scheduling也是如此，GPT的1-shot準确率低于10%，而1.5 Pro達到33%。

随着樣本數量逐漸增多，1.5 Pro的表現基本持續提升，但GPT-4 Turbo在樣本增加到一定程度時會出現下降趨勢，在Logistics中甚至持續下降。

比如Calendar Scheduling中，當樣本數量逐漸增加至80-shot時，GPT-4 Turbo和1.5 Flash隻有38%的準确率，比Gemini 1.5 Pro低了32%。

之後增加至400-shot時，1.5 Pro達到了77%的準确率，GPT卻依舊徘徊在50%左右。

非結構化多模态資料分析任務

現實世界中的大多數資料，比如圖像和對話，仍然是非結構化的。

研究人員向LLM展示了一組1024張圖像，目的是将圖像中包含的資訊提取到結構化資料表中。

圖17展示了從圖像中提取不同類型資訊的準确性結果。

Gemini 1.5 Pro在所有屬性提取上的準确性提高了9%（絕對值）。同時，相較于GPT-4 Turbo，1.5 Pro提升了27%。

然而，在評估時，Claude 3 API無法分析超過20張圖像，是以Claude 3 Opus的結果被限制了。

此外，結果顯示，1.5 Pro在處理更多的圖像時會帶來持續更好的結果。這表明該模型可以有效利用額外和更長的上下文。

而對于GPT-4 Turbo來說，随着提供的圖像增多，其準确性反而下降

更多細節參見最新技術報告。

參考資料：

https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/

https://x.com/JeffDean/status/1791522915021627438

https://x.com/sundarpichai/status/1791582982870089752

谷歌數學版Gemini破解奧賽難題，堪比人類數學家！

文本評估

多模态評估

繼續閱讀

銀河系大得令人類絕望，但在拉尼亞凱亞超星系團裡，它隻是一粒沙

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

《淨化人類》第61章：國際讨論會

人類首次全程行走明長城40周年《檔案》帶您走近“長城之子”董耀會

微軟CEO納德拉警告：勿将AI看做人類，它隻是人類的工具

馬斯克最新專訪：十年内或将首批人類送上火星，将來人人高收入不幹活

質疑、賣身、價格戰，AI 竟遭遇人類“圍剿”？｜钛媒體AGI

【家有萌娃】世界張開溫暖的懷抱接納了一個新的生命，這個幼小的生命将在愛的滋養下快樂健康成長，開啟她的美好人生。我希望她未

大洪水——人類“254”個民族的共同傳說

《淨化人類》第72章：跟着我，沒人敢動你

#人類幼崽又奶又酷穿搭

600光年外的“超級地球”：均溫22℃，人類太空移民夢能實作嗎？

特别優質的男人，會娶的女人類型

第05講二項分布（教師版）-2021-2022學年高二數學同步精品講義（人教A版2019選擇性必修第三冊）

第05講二項式定理（教師版）-2021-2022學年高二數學同步精品講義（人教A2019選擇性必修三第六章）

第05講充分條件、必要條件、充要條件（教師版）-高一數學同步精品講義（蘇教版2019必修第一冊）