天天看點

ChatGPT重構企業級市場 星環科技一發三箭

文/李佳師

微軟的創始人比爾蓋茨說,大語言模型ChatGPT是他一生中遇到的兩項革命性技術之一。未來,所有的行業都将會因為大語言模型而重構,目前大家已經看到了以ChatGPT為代表的大語言模型在通用消費市場的魔力,但在行業企業級市場,大語言模型要想規模化應用依然面臨三重限制。

“第一,訓練需要時間,而且時間比較長,可能需要半年或一年。第二,無論是通用還是行業大模型,輸入都有限制,這個限制取決于它的算力和工程化難度。第三,大模型有時精準度不夠,會出現‘幻覺’,是以需要一個知識庫來校正結果,需要一個機制來補充大模型,讓它能夠給出準确的答案和更實時的資訊。”日前,星環科技(688031.SH)創始人、CEO孫元浩在上海舉行的向星力·未來資料技術峰會上表示,目前在特定領域,大模型還不能像一個專家,隻相當于一個大學生或大學低年級的水準,隻能作為一個實習生,因為缺乏專業知識庫以及行業深度知識,無法解決特定行業的業務問題。

ChatGPT重構企業級市場 星環科技一發三箭

要解決大語言模型在行業市場面臨的這三重限制,星環科技做了三件事:提供大模型訓練工具,讓每個企業都能打造自己的專屬大模型;推出兩個行業模型,降低行業使用大模型的門檻;以大語言模型重構星環科技的核心資料庫産品。

一是推出大模型訓練工具Sophon LLMOps,幫助企業建構自己的行業大模型。據了解,Sophon LLMOps是一個機器學習模型全生命周期管理的工具平台,針對大語言模型及其衍生資料、模型、應用問題,提供了相應的增強:首先是樣本倉庫能力。第二,模型運維管理能力。第三,大語言模型和其他任務的編排和排程和上線能力。這個訓練模型主要解決行業客戶面臨三個核心痛點:第一,提供一站式工具鍊,幫助客戶從“通用大語言模型” 訓練/微調,得到“滿足自身業務特點的領域大語言模型”;第二,幫助客戶将原型的大語言模型應用,成功在實際生産中投入應用;第三,幫助客戶營運在生産中應用的大語言模型和大模型的持續提升。

二是推出兩個行業模型“無涯”和“求索”。 “無涯”是一款面向金融量化領域、超大規模參數量的生成式大語言模型。無涯使用上百萬的專業金融語料,其中涵蓋了研報、公告,政策,新聞等高品質的自然語言文本來作為基礎大模型的二次預訓練語料,使得無涯具備對包括基本面、技術面、消息面在内的金融通識領域準确的了解能力。無涯建構了包括政策、輿情、ESG、風險、量價、産業鍊等六類大模型基礎因子集,擅長處理金融量化領域的各類問題。

“求索”SoLar是一個大資料分析大模型 ,SoLar “求索”可以使用自然語言描述涉及多種資料模型的複雜業務需求,借助星環大資料平台的“多模型”技術,對不同模态(比如圖資料、文本資料、結構化資料)的資料進行關聯分析和展示。使用者可以通過自然語言,生成可成功執行的SQL或Cypher,進而快速擷取查詢的結果,能夠快速降低使用者的使用門檻。SoLar可以作為資料查詢和分析的智能副手,為資料工程師、資料科學及業務人員提供更好的使用體驗。 SoLar求索讓資料庫查詢平民化,讓非專業使用者在不需要學習和掌握資料庫程式設計語言的前提下通過自然語言自由地按需查詢資料。

三是用大模型重構星環科技的核心資料庫産品線。孫元浩認為資料庫技術因為資料的變化不斷發生變化:最古老的資料庫類型是SQL或關系資料庫,其中所有的資料都結構化的。Web 2.0公司不斷增長的需求引發了NoSQL革命,資料庫變得更加靈活,出現了能夠處理更多非結構化資料的資料庫,能夠的處理數量更加龐大。現在,随着市場對人工智能應用的追捧,出現了另一種被稱為向量資料庫(vector databases)的新市場。AIGC熱更是将加速了向量資料庫的投資熱。

ChatGPT重構企業級市場 星環科技一發三箭

基于此,在此次峰會上,星環科技推出自研的向量資料庫Transwarp Hippo。作為一款企業級雲原生分布式向量資料庫,星環Hippo支援存儲、索引以及管理海量的向量式資料集,能夠高效地解決向量相似度檢索以及高密度向量聚類等問題。與開源的向量資料庫不同,Hippo具備高可用、高性能、易拓展等特點,支援多種向量搜尋索引,支援資料分區分片、資料持久化、增量資料攝取、向量标量字段過濾混合查詢等功能,能夠很好地滿足企業針對海量向量資料的高實時性查詢、檢索、召回等場景。

同時,大模型技術帶來的啟發,圖神經網絡技術的日益發展,為圖智能的發展提供了沃土,為圖庫和圖智能結合提供了探索的機遇。針對海量圖資料的存儲、計算的難題,星環科技打造面向圖智能、業務分析的多模型企業級分布式圖資料庫StellarDB 5.0。StellarDB 5.0實作了實時短查詢場景5倍提升,高并發上萬+QPS,近50種圖算法,平均8倍性能提升,多度關聯關系場景10倍提升,解決無限擴層問題。StellarDB 5.0對接星環科技自研深度圖架構ZenGraph結合,基于圖資料庫的查詢計算能力,提供快速、準實時,甚至實時的特征查詢和計算。

另外,星環科技推出面向多元場景的高性能分布式時序資料庫TimeLyre 9.1。面對時序資料資料量大、資料分析需求高,開源系統不支援叢集部署,存儲和計算資料規模有限,不支援複雜分析,服務不穩定,以及缺乏安全可控性等問題,星環TimeLyre 9.1在常見的時序資料上,可實作5~20倍壓縮率,遠優于傳統資料庫,資料壓縮高、單節點磁盤可用容量高,可大大節約成本。

ChatGPT重構企業級市場 星環科技一發三箭

這次星環一舉發三箭有什麼啟示?

每一個新技術浪潮到來都會帶來産業重構,以ChatGPT為代表的大模型基礎技術不斷成熟,給行業帶來的變化是“所有技術和産品與行業都将因為大模型而重新來過”。星環科技這次一系列釋出帶來一些新啟示,作為一個企業級産品技術的廠商應該如何挖掘其中的變革商機:

首先,新的基礎技術出現要想進入每一個領域,必然需要降低門檻,必然需要新的工具,是以給行業提供大模型訓練的“鐵鍬”和“鏟子”,必然是新生意,是以星環給行業提供模型訓練的鏟子Sophon LLMOps。

其次,新基礎技術應用到行業需要模闆,需要有人将行業知識與使用者需求與基礎技術結合,這也是新生意,而星環在金融和大資料分析領域都有多年的積累,深知這些領域的需求,将這些需求和行業知識再結合大模型技術,于是星環推出兩個行業模型“無涯”和“求索,這也必然是新的有巨大需求的生意”。

再者每一個新基礎技術的到來,必然影響原有的産品與技術形态,原有的産品與技術必然因新技術而重構,是以星環更新和進一步擴充了自己的核心産品家族,推出了一系列與AIGC引發的新資料庫産品。這同樣是必須做的新生意。

這就是孫元浩在大模型浪潮到來之際的新生意邏輯。

繼續閱讀