大模型激戰長文本差異化待破局

本報記者曲忠芳北京報道

曆史不會重演，但總會驚人的相似。

曾經，智能手機品牌在晶片核數、攝像頭參數、螢幕尺寸、輕薄度、外部形态等各個次元激烈比拼，力求在殘酷的市場競争中标新立異、脫穎而出，如今相似的景象在AI大模型領域上演，圍繞參數規模、開源、生成多模态、上下文視窗長度等次元的競争日益升溫。尤其引人關注的是，在過去的半個月裡，AI新秀公司月之暗面宣布旗下大模型産品Kimi在上下文視窗技術上支援的長度提升至200萬字；随後，阿裡雲旗下的通義千問宣布免費開放1000萬字的長文檔處理功能，360智腦則開始内測500萬字長文本，并将50萬字文本能力開源，而百度文心一言被曝将在本月向公衆開放200萬至500萬字長文本能力。

事實上，國産大模型廠商“圍獵”長文本能力的背後，意圖自然是在競争激烈的市場競争中占據高地，在日益同質化的産品比拼中蹚出一條差異化的道路。而廣大使用者對于五花八門的AI工具最為關心的顯然是其實用性。最近一段時間以來，《中國經營報》記者從使用者視角調研體驗了多款大模型産品，同時結合不同的日常工作場景采訪詢問了不同職業的群體，通過呈現較有代表性的測試結果，試圖向公衆提供一些參考。

與使用者預期仍有差距

市場上面向C端消費市場的大模型産品非常多，提供大模型服務的組織機構主要有三類，一是百度、阿裡、360、抖音等網際網路大廠，二是以月之暗面、智譜AI、百川智能、階躍星辰等為代表的初創AI公司，三是來自高校和研究機構的相關團隊。

從市場上既有的大模型來看，使用者使用大語言模型的方式無外乎兩種，第一是通過聊天對話的方式發出“指令”，由系統平台生成文本、圖檔甚至音樂、視訊等内容作為回答互動。這裡需要指出的是，聊天對話的“指令”包括上傳特定格式的檔案或聯網的某個網址，要求大模型給出某個特定問題的答案，或者将全篇資訊進行歸納總結等。第二則是通過平台工具生成各式各樣的“智能體”（AI Agent），比如健身運動、文案寫作、外語學習、創意設計等各類AI助手。

數名來自不同律師事務所的律師在接受記者采訪時普遍提到，從去年年中開始已關注到各類生成式AI工具，這些産品的疊代更新速度很快，查詢搜羅資訊、生成回答的功能有所改善，但實質性的效能距離預期或理想中的“智能助手”仍有較大差距。其中，上海申倫律師事務所律師夏海龍表示，他現在會使用主流的大模型應用，就某個法律問題，對相關法律規定進行初步檢索和簡要分析。當被問及是否會用大模型解讀PDF檔案，他坦言：“不太信任AI解讀的完整性和準确性，法律文書中最值得注意的往往不是字面内容，而在于個别字眼以及可能引發的歧義了解。”北京浩天（南京）律師事務所律師俞曉天也表示，自己試用的幾款大模型在實際工作場景中效率不高。

基于現有的幾款免費版本的大模型，記者先是随機找了某港股上市公司的2023年财報，這份财報為PDF格式，全篇采用繁體中文，共49頁，然後将它分别“抛”給了文心一言、通義千問、智譜清言、月之暗面Kimi、天工AI、百川智能等大模型。幾秒鐘之内，各個平台都作出了回答，重點突出了營收增長、利潤變化、成本控制、業務結構、現金流量、股息政策等核心資料名額。值得一提的是，在上傳文檔流程中，智譜清言顯示可支援10個檔案上傳，且每個檔案大小為20MB；通義千問上傳按鈕顯示“可同時上傳100個檔案，每個150MB”，支援PDF、Word、Excel、Markdown、EPUB、Mobi、txt等格式，百川智能則顯示“支援同時上傳20個檔案，且每個不超過50MB，支援的檔案格式為PDF、doc、docx、txt”。

随後，記者又同步向體驗測試的所有大模型輸入了一模一樣的對話指令，主要任務是讓其根據可查的公開網絡資訊制作一張圖表，涵蓋主要大模型的名稱、營運企業、創始人/CEO、首次釋出時間、規模參數等資訊。顯而易見，相較于單純的知識性問答、PDF财報解析，這一任務更為複雜，測試結果顯示通義千問、智譜清言、Kimi、百川智能等基本生成了一張圖表，但是在成立時間、創始人等資訊上出現了錯誤。而大模型無法完成的内容會辨別類似“未知明确資訊”的字樣。

綜合多個測試問題、不同級别的任務處理，按同一指令語言“交給”大模型後，除了顯性、可量化的基礎配置參數有所差別之外，絕大部分AI大模型在功能使用、性能方面的優勢沒有特别突出的表現，同時整體在準确度、全面性、實時資訊搜尋提煉等方面均有較大的提升空間。

長文本成出圈“抓手”？

據不完全統計，目前已認證備案、向公衆開放的通用大模型産品已有20多款，市場競争的激烈程度可見一斑。在比拼激烈、産品同質化的環境中，作為AI新秀的月之暗面率先找到了“長文本”這一抓手。3月18日，月之暗面宣布Kimi在上下文視窗技術方面取得突破，無損的上下文長度從20萬字擴充到200萬字，并開啟内測。月之暗面創始人楊植麟認為，通往AGI（通用人工智能）的道路上，無損的上下文将是一項很關鍵的基礎技術。曆史上所有的模型架構演進，本質上都是在提升有效的、無損的上下文長度。“上下文長度可能存在摩爾定律，但需要同時優化長度和無損壓縮水準兩個名額才是有意義的規模化。”

Kimi憑借長文本“破圈”，不僅直接帶動了二級市場的相關股價上漲，而且引發了網際網路大廠在長文本能力上的跟進。其中，360集團創始人周鴻祎公開指出，大模型在“卷文本長度，20萬字、50萬字，很快100萬字就是标配了”，基于此，360智腦将把支援360KB——約50萬字的上下文能力開源。

一位來自品牌營銷領域的專業人士分析指出，在群雄逐鹿的市場競争中，一方面是産品力的比拼，另一方面是使用者體驗的較量，即考驗誰能真正解決使用者痛點。“我們可以回想智能手機初期的争奪戰，從CPU到大屏、從拍照功能到輕薄度，再到生物識别、NFC功能、外殼材質，直到現在仍在比拼的折疊屏，甚至AI，每一個次元的白熱化競争共同促成了智能手機的成熟與普及。”該人士也指出，單一次元的競争在營銷視角中容易占據使用者心智，但後續仍需要産品創新與使用者體驗的支援才能長久，否則很容易被對手超越。

謙詢智庫創始合夥人龔斌認為，國内大模型廠商之是以能夠在短期内找出長上下文的方法，主要是在原有技術積累的基礎上進行了算法疊代，采用多種方法的混合優化，實作快速“超車”。具有長上下文的大模型通用性更強，使用者将特定領域的知識通過上下文的方式輸入模型中，模型即可以通過上下文學習掌握相應内容，一定程度上代替模型的微調。此外，長上下文模型能适應虛拟角色的個性化資訊記憶、開發者的長提示詞輸入、AI Agent的多輪調用需求，以及垂直客戶長文檔輸入需求等多種場景，有望為“AI+”應用帶來新的突破機會。

與此同時，龔斌也指出，生成式AI、大模型無論從技術還是從應用方面仍處在初期階段。現在資本圈裡非常火熱的一些C端産品，差不多相當于移動網際網路早期一些迅速蹿紅的現象級應用，而後來真正成為主流的“殺手級應用”目前還沒有出現，仍有待持續觀察。

大模型激戰長文本差異化待破局

繼續閱讀

斯坦福團隊被曝抄襲清華系大模型後删庫，被抄襲公司CEO：也算國際認可

Mistral 的首個“開放”程式設計模型

斯坦福AI團隊抄襲國産大模型？連識别“清華簡”都抄了！清華系團隊回應

LLM 快速發展時代下圖基礎模型初探

Chaos Cosmos新增了 650 多種高品質 3D 模型和材質

看來AI是未來手機發展的趨勢無疑了，近日有爆料稱将用AI徹底改造Siri，讓其控制所有功能，該功能允許使用者通過語音控制單

斯坦福AI團隊被質疑抄襲國産大模型

蘭德：確定AI模型權重

斯坦福AI團隊承認抄襲清華模型，公開道歉并撤下争議項目

今日法律問答·著作權：斯坦福AI團隊抄襲面壁開源模型是否侵權

清華與面壁聯合開發模型被套殼，兩位斯坦福學生作者道歉删除引用

斯坦福團隊抄襲清華系大模型實錘，作者深夜道歉，中國大模型已經無法被忽視

微軟潘海峰華盛頓大學王晟團隊釋出首個全切片數字病理學模型

阿裡雲首個聯合DNA、RNA、蛋白質的生物大模型，涵蓋16.9W物種

鐘薛高再回應蕃薯刺客；理想辟謠新車充當二手車出口；斯坦福AI團隊就抄襲中國模型緻歉｜晚報

國内一開源，國外就自研[發怒]斯坦福大學團隊抄襲清華系明星創業公司開源模型“小鋼炮”MiniCPM-Llama3-V2.

大模型激戰長文本 差異化待破局

繼續閱讀

大模型激戰長文本差異化待破局