天天看點

大模型激戰長文本 差異化待破局

作者:中國經營報

本報記者 曲忠芳 北京報道

曆史不會重演,但總會驚人的相似。

曾經,智能手機品牌在晶片核數、攝像頭參數、螢幕尺寸、輕薄度、外部形态等各個次元激烈比拼,力求在殘酷的市場競争中标新立異、脫穎而出,如今相似的景象在AI大模型領域上演,圍繞參數規模、開源、生成多模态、上下文視窗長度等次元的競争日益升溫。尤其引人關注的是,在過去的半個月裡,AI新秀公司月之暗面宣布旗下大模型産品Kimi在上下文視窗技術上支援的長度提升至200萬字;随後,阿裡雲旗下的通義千問宣布免費開放1000萬字的長文檔處理功能,360智腦則開始内測500萬字長文本,并将50萬字文本能力開源,而百度文心一言被曝将在本月向公衆開放200萬至500萬字長文本能力。

事實上,國産大模型廠商“圍獵”長文本能力的背後,意圖自然是在競争激烈的市場競争中占據高地,在日益同質化的産品比拼中蹚出一條差異化的道路。而廣大使用者對于五花八門的AI工具最為關心的顯然是其實用性。最近一段時間以來,《中國經營報》記者從使用者視角調研體驗了多款大模型産品,同時結合不同的日常工作場景采訪詢問了不同職業的群體,通過呈現較有代表性的測試結果,試圖向公衆提供一些參考。

與使用者預期仍有差距

市場上面向C端消費市場的大模型産品非常多,提供大模型服務的組織機構主要有三類,一是百度、阿裡、360、抖音等網際網路大廠,二是以月之暗面、智譜AI、百川智能、階躍星辰等為代表的初創AI公司, 三是來自高校和研究機構的相關團隊。

從市場上既有的大模型來看,使用者使用大語言模型的方式無外乎兩種,第一是通過聊天對話的方式發出“指令”,由系統平台生成文本、圖檔甚至音樂、視訊等内容作為回答互動。這裡需要指出的是,聊天對話的“指令”包括上傳特定格式的檔案或聯網的某個網址,要求大模型給出某個特定問題的答案,或者将全篇資訊進行歸納總結等。第二則是通過平台工具生成各式各樣的“智能體”(AI Agent),比如健身運動、文案寫作、外語學習、創意設計等各類AI助手。

數名來自不同律師事務所的律師在接受記者采訪時普遍提到,從去年年中開始已關注到各類生成式AI工具,這些産品的疊代更新速度很快,查詢搜羅資訊、生成回答的功能有所改善,但實質性的效能距離預期或理想中的“智能助手”仍有較大差距。其中,上海申倫律師事務所律師夏海龍表示,他現在會使用主流的大模型應用,就某個法律問題,對相關法律規定進行初步檢索和簡要分析。當被問及是否會用大模型解讀PDF檔案,他坦言:“不太信任AI解讀的完整性和準确性,法律文書中最值得注意的往往不是字面内容,而在于個别字眼以及可能引發的歧義了解。”北京浩天(南京)律師事務所律師俞曉天也表示,自己試用的幾款大模型在實際工作場景中效率不高。

基于現有的幾款免費版本的大模型,記者先是随機找了某港股上市公司的2023年财報,這份财報為PDF格式,全篇采用繁體中文,共49頁,然後将它分别“抛”給了文心一言、通義千問、智譜清言、月之暗面Kimi、天工AI、百川智能等大模型。幾秒鐘之内,各個平台都作出了回答,重點突出了營收增長、利潤變化、成本控制、業務結構、現金流量、股息政策等核心資料名額。值得一提的是,在上傳文檔流程中,智譜清言顯示可支援10個檔案上傳,且每個檔案大小為20MB;通義千問上傳按鈕顯示“可同時上傳100個檔案,每個150MB”,支援PDF、Word、Excel、Markdown、EPUB、Mobi、txt等格式,百川智能則顯示“支援同時上傳20個檔案,且每個不超過50MB,支援的檔案格式為PDF、doc、docx、txt”。

随後,記者又同步向體驗測試的所有大模型輸入了一模一樣的對話指令,主要任務是讓其根據可查的公開網絡資訊制作一張圖表,涵蓋主要大模型的名稱、營運企業、創始人/CEO、首次釋出時間、規模參數等資訊。顯而易見,相較于單純的知識性問答、PDF财報解析,這一任務更為複雜,測試結果顯示通義千問、智譜清言、Kimi、百川智能等基本生成了一張圖表,但是在成立時間、創始人等資訊上出現了錯誤。而大模型無法完成的内容會辨別類似“未知明确資訊”的字樣。

綜合多個測試問題、不同級别的任務處理,按同一指令語言“交給”大模型後,除了顯性、可量化的基礎配置參數有所差別之外,絕大部分AI大模型在功能使用、性能方面的優勢沒有特别突出的表現,同時整體在準确度、全面性、實時資訊搜尋提煉等方面均有較大的提升空間。

長文本成出圈“抓手”?

據不完全統計,目前已認證備案、向公衆開放的通用大模型産品已有20多款,市場競争的激烈程度可見一斑。在比拼激烈、産品同質化的環境中,作為AI新秀的月之暗面率先找到了“長文本”這一抓手。3月18日,月之暗面宣布Kimi在上下文視窗技術方面取得突破,無損的上下文長度從20萬字擴充到200萬字,并開啟内測。月之暗面創始人楊植麟認為,通往AGI(通用人工智能)的道路上,無損的上下文将是一項很關鍵的基礎技術。曆史上所有的模型架構演進,本質上都是在提升有效的、無損的上下文長度。“上下文長度可能存在摩爾定律,但需要同時優化長度和無損壓縮水準兩個名額才是有意義的規模化。”

Kimi憑借長文本“破圈”,不僅直接帶動了二級市場的相關股價上漲,而且引發了網際網路大廠在長文本能力上的跟進。其中,360集團創始人周鴻祎公開指出,大模型在“卷文本長度,20萬字、50萬字,很快100萬字就是标配了”,基于此,360智腦将把支援360KB——約50萬字的上下文能力開源。

一位來自品牌營銷領域的專業人士分析指出,在群雄逐鹿的市場競争中,一方面是産品力的比拼,另一方面是使用者體驗的較量,即考驗誰能真正解決使用者痛點。“我們可以回想智能手機初期的争奪戰,從CPU到大屏、從拍照功能到輕薄度,再到生物識别、NFC功能、外殼材質,直到現在仍在比拼的折疊屏,甚至AI,每一個次元的白熱化競争共同促成了智能手機的成熟與普及。”該人士也指出,單一次元的競争在營銷視角中容易占據使用者心智,但後續仍需要産品創新與使用者體驗的支援才能長久,否則很容易被對手超越。

謙詢智庫創始合夥人龔斌認為,國内大模型廠商之是以能夠在短期内找出長上下文的方法,主要是在原有技術積累的基礎上進行了算法疊代,采用多種方法的混合優化,實作快速“超車”。具有長上下文的大模型通用性更強,使用者将特定領域的知識通過上下文的方式輸入模型中,模型即可以通過上下文學習掌握相應内容,一定程度上代替模型的微調。此外,長上下文模型能适應虛拟角色的個性化資訊記憶、開發者的長提示詞輸入、AI Agent的多輪調用需求,以及垂直客戶長文檔輸入需求等多種場景,有望為“AI+”應用帶來新的突破機會。

與此同時,龔斌也指出,生成式AI、大模型無論從技術還是從應用方面仍處在初期階段。現在資本圈裡非常火熱的一些C端産品,差不多相當于移動網際網路早期一些迅速蹿紅的現象級應用,而後來真正成為主流的“殺手級應用”目前還沒有出現,仍有待持續觀察。

繼續閱讀