天天看點

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

作者:快樂湖泊9f7

如果您喜歡這篇作品,歡迎點選右上方“關注”。感謝您的鼓勵與支援,希望能給您帶來舒适的閱讀體驗。此篇文章,隻做今日頭條首發創作,未釋出其他任何平台,原創不易,抄襲、洗稿必将深究。

數位點評派探秘:AI語言大模型綜合評測

過去的一年裡,OpenAI推出了ChatGPT,一款引爆科技圈的語言模型。它不僅可以與人聊天,還能進行算數、程式設計,甚至幫助程式員修複BUG。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

然而,科技巨頭們也不甘示弱,紛紛投入競品開發,以確定不被淘汰。

微軟是其中一例。在ChatGPT釋出不久後,微軟急速推出了NewBing,将GPT-3.5這款強大的人類語言了解模型應用于自家搜尋引擎。這使得原本一般的必應搜尋引擎一躍成為了一個幾乎全知全能的AI搜尋引擎,具備聯網搜尋和上下文交流等功能。

相對而言,谷歌釋出的AI聊天機器人Bard表現遜色不少。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

不僅釋出會上出現錯誤回答,連内測版使用者詢問其倒閉時間,也被錯誤引用。這暗示谷歌的訓練量可能不足。盡管如此,受到外界壓力,谷歌不得不推出了這款訓練時長有限的産品。

值得注意的是,谷歌直到今年7月13日才正式支援中文語言。然而,百度的文心一言和訊飛的星火模型已經陸續開放測試,甚至有使用者開始對它們進行橫向對比。

為了評估這些語言大模型的能力,我們将從實時資訊搜尋、中文了解能力,以及多模态識别能力等方面進行綜合評估。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

實時資訊搜尋能力

對于數位領域的問題,如榮耀Magic V2的釋出時間和硬體配置,各個模型的表現存在差異。Bard在回答方面顯得有些抽象,準确性也存在問題,可能由于對中文了解不足。文心一言表現較為穩定,錯誤資訊較少,而星火模型在這方面表現最差,甚至出現了一些錯誤的資訊。

中文了解能力

在中文了解能力測試中,Bard的表現相對較差,對于一些中文俚語和邏輯關系了解不足。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

文心一言和星火模型在中文了解上表現更為出色,特别是星火模型還能提供實際例子幫助使用者了解。

多模态識别能力

Bard的多模态識别能力較強,尤其在識圖和程式設計方面表現出色。然而,與其他模型相比,其中文能力較弱。星火模型在多模态識别方面則表現不佳,未提供圖檔上傳功能。

綜合評價

經過七月的大更新,谷歌的Bard已經能夠較為穩定地應用于中文環境。它支援中文聊天、識圖回報資訊,并能夠聯網搜尋實時資訊。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

雖然功能豐富,但整體而言,各家語言大模型在表現上相差不大,都沒有突破“聊天問答”的架構。

最後,我們仍然期待着這些語言大模型能夠在更多領域創造出殺手級的應用場景,以實作技術的更大突破。無論是谷歌的Bard,還是百度的文心一言和訊飛的星火模型,都有可能在不久的将來帶來更多令人驚喜的創新。

誠邀您點選一下“關注”按鈕,友善以後持續為您推送此類文章,非常感謝您的閱讀和支援,希望能與您進行更多的互動和交流。

普通人還在目瞪口呆的時候,科技巨頭們已經開始加班搞競品了

繼續閱讀