撰文/ 陳鄧新

編輯/ 李季

排版/ Annalee

2024年4月26日，科大訊飛的星火大模型V3.5春季上新，一句話聲音複刻功能讓科技更有溫度；推出星火智能體平台，助企業解決大模型應用落地“最後一公裡”難題；确定6月27日正式釋出訊飛星火V4.0……

這其中，訊飛星火成為業界首個支援“長文本、長圖文、長語音”的大模型，成功抓住使用者高效準确知識擷取的痛點，尤為引人矚目。

相比之下，長文文字長度“全球第一”的攀比變得索然無趣。

時至今日，科大訊飛為什麼要做長文本、長圖文、長語音的大模型？長文本、長圖文、長語音的大模型，到底成色幾何？闖入大模型決賽圈，科大訊飛的底氣何在？

“長文本”競争，邁入2.0時代

ChatGPT橫空出世，催生了“百模大戰”。

百家争鳴之下，行業也在思考大模型的價值，從嘗鮮走向實用成為共同的訴求，于是乎應用落地成為大模型博弈的“主戰場”。

不過，“大廠們”的主要精力在B端，通過賦能産業的方式，實作共生共榮共赢。

與之對應是，C端重視的程度有所不及，提效需求長期得不到徹底滿足，以至于“修改AI生成文案的時間，不比從頭想來的少”成為共鳴。

直到“長文本”出現，才有了微妙的變化。

畢竟，人工閱讀長文本耗時按小時計算，但大模型耗時按秒計算，提效肉眼可見，C端知識高效擷取從夢想走向現實。

公開資料顯示，GPT-4Turbo-128k的文本範圍約為10萬漢字，Claude3200k約為16萬漢字，而以Kimi為首的國内大模型不斷内卷，長文本處理能力從20萬漢字一路攀升超千萬漢字，上演了一出“軍備競賽”。

作為既懂B端又懂C端的公司，科大訊飛卻有不同的看法。

科大訊飛分析發現，在知識擷取和學習的過程中，廣大使用者能拿到的資料往往不僅是現成的長文本，還有随手可見的報刊書籍内容、各種研讨會的PPT内容，老師黑闆上的闆書、同學的筆記，以及各種會議錄音、訪談，各種網上的釋出會、教育訓練教育視訊等，如何把這些文本、圖檔、語音等都上傳到訊飛星火中，則可以快速地擷取全次元的知識。

通俗易懂地說，科大訊飛跳出長文本之争的固有思維，通過多模态進行降維打擊，真正面向使用者高效知識擷取的多元場景，擺脫了“長文本”當下的内卷。

對此，科大訊飛董事長劉慶峰表示：“我們從星火APP的應用看到，使用的最高峰不是周末，而是工作日，使用的最高峰時間是在工作日的上午9:30和下午的3:30，也就是說絕大部分使用者是由我們訊飛星火來解決和工作相關的問題的。”

七麥資料顯示，訊飛星火APP在安卓端的下載下傳量已經超過9600萬次，在國内工具類通用大模型APP中排名第一。

從可用走向愛用，從場景中找到剛需

以上可見，持續用技術進步解決真實剛需，是訊飛星火獲得使用者認可的關鍵所在，也契合科大訊飛大模型一直秉持的“解放生産力，釋放想象力”宗旨。

事實上，科大訊飛的長文本、長圖文、長語音大模型，堪稱職場人的提效“神器”。

一方面，長文本處理更專業。

雖然越來越多的大模型支援長文本處理，但含金量卻并不相同，之是以如此與使用RAG（檢索增強）算法息息相關。

一名業内人士告訴鋅刻度：“所謂RAG算法，可以簡單粗暴地了解為長文本拆分成多個短文本再進行處理，進而降低了技術門檻，拼長度很有優勢，但捕捉上下文能力相對不足，進而降低了處理效率，并在精準性、連貫性、可靠性上處于劣勢。”

上述業内人士進一步表示，RAG算法滿足可用标準，适合一些對知識準确度要求不高的工作場景，需要使用者人工再檢查一遍，而無損算法可以完整地捕捉上下文内容，進而了解長文本更準确，滿足易用标準。

訊飛星火則更進一步，達到好用與愛用的标準。

訊飛星火通用長文本能力，包括長文檔資訊抽取、長文檔知識問答、長文檔總結、長文檔文本生成等，總體已經接近GPT-4 Turbo，而在各垂直領域的知識問答任務上，星火大模型長文本總體水準已經超過GPT-4 Turbo。

更為重要的是，借助稀疏剪枝技術與知識蒸餾技術，推出業界最優的130億參數的大模型在效果損失僅3%以内的情況下，使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得了極大的效率提升。

測試顯示，在保障長文本效果的情況下，無論是10K、64K、128K token，還是更長的文本上，星火大模型的性能都做到業界最優。

如此一來，即使潦草手寫文字的識别也不在話下，而這曾是Kimi的痛點。

另外一方面，創新瞄準剛需。

作為後入者，單單更專業是不夠的，還需要有獨到之處才可以後來居上，科大訊飛從場景中找到剛需，再通過滿足剛需達到創新的目的。

于是乎，長圖文、長語音令訊飛星火占據了“人無我有”的競争優勢。

更為關鍵的是，長文本、長圖文與長語音互相促進，應用場景得到極大的擴充，訊飛星火落地也順勢獲得更大的增量場。

譬如，日常生活中經常碰到冗長的購房合同、保險合同等，看不懂、看不完、看不全成為一個長期的痛點，長文本與長圖文疊加則可以對合同進行風險稽核、合同比對、摘要總結等，迅速識别潛在風險漏洞，讓合同處理更便捷、更高效、更準确。

再譬如，長文本疊加長語音，可以幫助提升實錄轉寫的效率以及篇章梳理能力，讓教師備課、學生複習更友善、更輕松、更省心。

另外，訊飛AI學習機是全球首款認知大模型AI學習機，長圖文與長語音疊加可以提升了AI學習機是的智能化輔學能力，賦予英語口語陪練、中英作文批改、數學互動輔學、百科自由問答、親子教育助手等更強的互動性，增加孩子的學習興趣，進一步釋放孩子的創造力、啟發力與想象力。

2023年，受益于訊飛星火，訊飛AI學習機、訊飛智能辦公本，訊飛智能錄音筆、訊飛智能翻譯機等C端硬體産品的GMV實作84%增長。

由此可見，長文本、長圖文、長語音的“化學反應”，解決了使用者在全場景中更高效擷取知識的剛需。

想象力變為生産力，算力底座是關鍵

不難看出，科大訊飛為大模型博弈指明了一個行業方向：避免無效的“内卷”，回歸技術創新的“主航道”，則可以上演彎道超車的好戲。

畢竟，技術創新才是最大的生産力。

而要把想象力變為生産力，則離不開科大訊飛長期苦練基本功，夯實了大模型底座，如此才能跑得快、更跑得遠。

簡而言之，算力才是大模型的底座，是支撐長文本、長圖文與長語音的重要保障。

巧的是，科大訊飛一直堅持做難而正确的事情：相較行業的“大玩家們”，科大訊飛的資金并不突出，卻持之以恒地加碼算力，成為屈指可數擁有大模型底座的AI企業。

财報資料顯示，科大訊飛2023年的研發費用為38.39億元，同比增長11.89%，而全年淨利潤也不過6.57億元，研發費用是淨利潤的5.84倍，“該投的投，絕不手軟，應投盡投，飽和投入”。

值得一提的是，科大訊飛的算力底座自主可控。

2023年10月，科大訊飛與華為聯合釋出首個支撐萬億參數大模型訓練的萬卡國産算力平台“飛星一号”，通過帶寬使用率提升、并行訓練算法優化，訊飛星火在華為910B晶片上實作了英偉達A100的90%的算力能力，而且在部分專用能力領域甚至超越英偉達。

這麼一來，訊飛星火大模型V3.5，一躍成為首個全國産算力訓練的完全自主知識産權的大模型，不懼“卡脖子”的風險。

強強聯合之下，科大訊飛跻身大模型的第一梯隊。

關于此，從剛剛結束不久的第27屆聯合國科技大會就可見一斑：科大訊飛與OpenAI、谷歌、微軟等數十家國内外知名企業共同參與、編制《生成式人工智能應用安全測試标準》和《大語言模型安全測試方法》兩項國際标準，其中科大訊飛深度參與制定《生成式人工智能應用安全測試标準》，彰顯了其人工智能技術實力與國際影響力。

總而言之，科大訊飛的立足于大模型算力底座，與國際最先進的能力看齊，進而孵化出長文本、長圖文與長語音大模型，憑借文字處理更專業、應用場景更豐富、使用者需求更易滿足，一舉奠定了其大模型的領先地位。

那麼，科大訊飛的“星火”正在“燎原”。

訊飛星火煥新，上線“超級知識助手”，跳出“長文本”混戰

“長文本”競争，邁入2.0時代

從可用走向愛用，從場景中找到剛需

想象力變為生産力，算力底座是關鍵