天天看點

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

财聯社

2024-05-17 10:41釋出于上海上海報業集團旗下《财聯社》官方賬号

《科創闆日報》5月17日訊(記者 朱淩) 近日,OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚豔互動能力,将新一輪AI争霸帶入了“Her 時代”。GPT-4o的“o”代表“omni”,一詞意為“全能”,該模型能夠實作無縫的文本、視訊和音頻輸入,并生成相應模态的輸出,真正意義上實作了多模态互動。

緊随其後一天,年度Google I/O開發者大會如期而至,谷歌CEO Sundar Pichai宣布了一系列圍繞其最新生成式AI模型Gemini的重大更新,全面反擊OpenAI,其中就有由更新後Gemini模型驅動的AI助手項目Project Astra、對标Sora的文生視訊模型Veo等。

本周AI戰場暫告一段落,《科創闆日報》記者對AI界的“明星”選手——谷歌Gemini 1.5 Pro(100萬tokens)、OpenAI最新更新的GPT-4o與此前釋出的GPT-4進行了一場能力評測。

▍文本測試:谷歌Gemini 1.5 Pro正确率和速度完勝GPT-4o和GPT-4

OpenAI釋出GPT-4已過去一年多,據介紹,此次推出新旗艦模型GPT-4o的推理能力有明顯的提升,速度快了,價格也下降了。

谷歌Gemini系列以其标志性的超大上下文視窗出名,此前已擁有Ultra、Pro和Nano三種規格,各适配不同規模與需求的應用場景。本次釋出會宣布,疊代後的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens(語句機關)提升到了200萬tokens。這一改進顯著增強了模型的資料處理能力,使其在處理更加複雜和龐大的資料集時更加遊刃有餘。

兩家公司都對自己的大模型的更新換代展現出自信姿态,但情況還需要實際驗證。

第一題是“事實回答題”,隻有谷歌Gemini 1.5 Pro模型回答正确,它能辨識出“螺絲釘并不是一種食品”這一事實。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

Gemini 1.5 Pro回複結果

GPT-4和GPT-4o雖然對“麻辣螺絲釘怎麼做”的回答非常詳細和全面,涵蓋了所需材料、制作步驟以及小貼士,但是卻忽略了“螺絲釘并不是一種可食用品”這一前置事實。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

GPT-4、GPT-4o回複結果

第二題是“邏輯計算題”,GPT-4和GPT-4o均回答錯誤,谷歌模型給出正确答案,并且顯示了具體作答時間,不到10秒的時間裡便給出了答案和解析,表現可謂“又快又好”。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

Gemini 1.5 Pro回複結果

不同模型在處理邏輯問題時所采取的思考政策有所差别。與Gemini 1.5 Pro在解答時先給出答案再詳細解釋其背後規律的方式不同,GPT-4和GPT-4o更傾向于首先深入拆解問題,而非直接呈現答案。然而,這種對問題的細緻分析和拆解過程也導緻了後兩者在回答時所需的時間相對較長。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

GPT-4、GPT-4o回複結果

第三題是“生物題”,GPT-4回答錯誤,GPT-4o和谷歌Gemini 1.5 Pro回答正确,用時分别為14.83秒和11.2秒,Gemini 1.5 Pro略勝一籌。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

Gemini 1.5 Pro回複結果

第四題是“倫理道德題”,三個大模型的回答都正确,并且都能識别出是經典的倫理困境“電車難題”。GPT-4和 Gemini 1.5 Pro強調了倫理困境的複雜性,并沒有給出直接的選擇,GPT-4o則根據“最大限度減少傷亡”的原則進行分析并給出選擇。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

三大模型回複結果

《科創闆日報》記者總結文本測試結果發現,谷歌100萬級參數的Gemini 1.5 Pro模型憑借四次全部正确的表現,實力杠杆,GPT-4o答對了兩次,而GPT-4模型的表現則不盡人意,僅答對了一次。

由于目前200萬級參數的Gemini 1.5 Pro模型尚未開放,《科創闆日報》記者申請了内測,等待通過後再做進一步測試分享。

▍多模态測試:GPT-4o在細節和分析能力上更勝一籌

GPT-4o是OpenAI對其廣受歡迎的大型多模态模型GPT-4的第三次重大疊代,它通過視覺功能擴充了GPT-4的能力,新釋出的模型能夠以一種內建且無縫的方式與使用者進行對話、視覺識别和互動。Gemini 1.5 Pro也擁有多模态功能,适合處理摘要、聊天、圖檔分析和視訊字幕、以及從長文本和表格中提取資料等。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

記者用“公園照片”詢問三個大模型

在測試中,記者用一張“公園照片”來詢問三個大模型。根據圖檔測試回報,三個大模型都準确地描述了公園照片的内容,但側重點略有不同。GPT-4o勝在資訊完整性,詳細列舉了船隻類型、湖面狀态等各種細節,但略顯冗長。Gemini 1.5 Pro語言簡潔流暢,用“悠閑地泛舟”、“景色宜人”等詞語描繪出畫面美感,但細節不如GPT-4o豐富。GPT-4描述簡潔,但細節不夠豐富。

簡而言之,如果看重資訊的全面性,GPT-4o最強;若更注重語言表達,則Gemini 1.5 Pro表現略佳。

由于目前GPT-4尚未具備音頻和視訊内容的解析能力,是以不做相關測評。OpenAI聯合創始人Sam Altman表示,新款語音模型GPT-4o尚未發貨,已經發貨隻是文字版GPT-4o。等到語音版一發貨,記者将第一時間帶來評測。

根據視訊測試回報,GPT-4o在解析視訊内容時表現出了強大的多模态處理能力。它能夠提取和分析視訊幀,并通過圖形界面直覺地展示給使用者。在分析過程中,模型準确地識别出了視訊中的四足機器人,并對其外觀、所處的環境以及所進行的活動進行了詳細的描述。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

相比之下,Gemini 1.5 Pro的回複則顯得簡略又單調,在記者第二次追問下,才充實了更多細節。

AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

總體來看,如果目标是擷取最全面、深入的多模态内容了解,GPT-4o是目前的最佳選擇,而Gemini 1.5 Pro則更适合那些重視表述品質與效率的多模态應用場景。不過,GPT-4o和Gemini 1.5 Pro都沒有提及對視訊裡的聲音的分析,這是兩個多模态大模型解析中的一個共同缺失。

▍前華為“天才少年”預測國内第一個端到端多模态大模型年底将到來

AI比賽行至白熱化階段已經告别單純的技術競争,轉向應用和使用者體驗的競争。

在搜尋引擎和辦公領域,谷歌也将進一步将AI引入其中。記者發現,能夠總結谷歌搜尋引擎結果的“AI概覽”(AI Overviews)功能已能夠使用。百度創始人、董事長兼首席執行官李彥宏昨晚在财報電話會上表示,目前百度搜尋上有11%的搜尋結果由AI生成。他指出,百度搜尋的AI重構工作仍處于早期階段,整體來看,搜尋最有可能成為AI時代的殺手級應用。

OpenAI與谷歌都不約而同地盯上了能自然互動的智能助理,這種智能助理是一個端到端的統一多模态大模型,将推動AI應用的革命性變化。前華為“天才少年”、

前華為“天才少年”、Logenic Al 聯合創始人李博傑認為,國内第一個多模端到端多模态,很有可能今年年底就能差不多能出來了。

針對AI Agent近期的發展速度放緩的問題,李博傑表示,“雖然AI智能助理的發展前景廣闊,但成本和使用者的付費意願是目前限制其快速發展的主要因素。GPT-4o它比GPT-4快4倍,并将成本降低了一倍,但是對于普通消費者來說可能仍然較貴。”

李博傑稱,從長期來看,實用性強的智能助理因其解決現實問題的能力而具有更高的價值。而短期内,情感陪伴和娛樂功能的智能助理更容易商業化,因為它們對可靠性的要求較低,開發和部署相對容易。

(科創闆日報記者 朱淩)

檢視原圖 156K

  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦
  • AI“明星”選手巅峰對決!記者實測最新谷歌Gemini與GPT-4o|聚焦

繼續閱讀