天天看點

【深度】“搖錢樹”還是“吞金獸”? 大模型考驗AI資料服務商

作者:證券時報

“大模型對資料采集、标注等方面的要求都非常高。以前大家還在卷價格,但現在處理一條資料,成本甚至能達到幾百塊錢。”在一場大模型語料資料推介會中,北京晴數智慧科技有限公司(下稱“晴數智慧”)的資料專家喬天說道。

作為一家資料服務公司,晴數智慧主要為人工智能研發企業和科研機構提供高品質的AI訓練資料集及專業咨詢服務。喬天的感受并不是個例。證券時報記者采訪多家AI資料服務商發現,今年以來大模型的火熱,為一批AI資料服務商帶來了更多訂單需求,卻也極大提升了資料産品和服務的成本。

大模型時代,機遇與挑戰并存。布局大模型是為未來種下一棵确定的“搖錢樹”,還是在養一隻“錢”景不明的“吞金獸”?随着三季報盡數出爐,部分上市公司的業績也透露出一個信号:AI資料服務商業績承壓,正面臨成本考驗。

收益——需求井噴帶來更多訂單

算力、資料、算法,被稱為支撐AI大模型的三駕馬車。在今年的世界人工智能大會上,中信智庫專家委員會主任、中信建投證券研究所所長武超則表示,一個模型的好壞,20%由算法決定,80%由資料品質決定,未來高品質的資料将是提升模型性能的關鍵。

訓練大模型需要大量高品質的資料。如果将大模型比作一個學習者,那唯有提供優質的“學習材料”,才能讓其更有效地掌握知識,提升智力水準。随着預訓練大模型技術的發展,對資料的品質和數量的要求也越來越高。根據德勤預測,2027年AI預訓練資料服務的市場規模有望達到160億元,5年複合增速為28.9%。

而且,目前大模型加速應用于千行百業,對于垂直領域高品質資料集的需求更是呈現井噴的狀态。記者梳理發現,A股主要的AI資料服務公司最近一段時間紛紛宣布,已與大模型公司或科研機構達成了合作。

比如,國内AI訓練資料龍頭海天瑞聲近期宣布與北京智源人工智能研究院正式簽署戰略合作協定,在大模型資料處理、大模型評測、資料集研發、人工智能标準研制等方面開展合作。拓爾思日前在投資者互動平台表示,公司已與人工智能企業和國家級實驗室簽訂銷售合同,為其提供高品質、多元化的資料,作為大模型預訓練資料集。

“我們的一個明顯感受是,大模型在場景端實作了真正的爆發。”上海數庫科技首席科技官曹峰在接受記者采訪時說。作為一家資料科技公司,數庫科技在金融及産業領域積累了龐大的資料産品與系統服務。曹峰告訴記者,如今客戶會基于大模型的能力提出許多以往技術達不到的需求,例如對現有研報和公告進行深度解析,将對上市公司調研的訪談内容形成文字并自動提取要點等等。

場景應用的多元化以及資訊加工的深度化,都意味着更多和更複雜的資料需求。據介紹,這些資料有些需要借助大模型來生産,有些則是作為垂直領域大模型的訓練語料或者生成内容時的參考資料。

成本——算力與人力開銷水漲船高

雖然大模型橫空出世以前,AI資料服務商已經積累了不少成熟的資料産品,然而很多并不契合訓練大模型的要求。“大模型公司就像廚師,資料服務商就像菜農,廚師下單的一些‘食材’,是菜農之前沒有見過的。”财經資訊服務商飛迪科技創始人丘慧慧向記者做了一個生動的比喻。

“廚師”提出了定制化的、更高端的食材需求,“菜農”隻能投入更多的精力、花費更高的成本去制作。這帶來的一個直覺影響,就是資料産品和服務的成本變高了。

具體是哪些地方需要花更多的錢呢?一名人工智能研究人員告訴記者,更高的成本主要展現在兩個方面——算力和人力。算力方面,由于大模型需對資料進行更深度、精細的挖掘,離不開更強大的算力支援,資料服務商往往需要租賃或者采購更多的晶片、顯示卡等硬體資源。

人力方面,在過去相當長的一段時間裡,AI資料服務,尤其是資料标注服務被視為勞動密集型産業,是髒活、苦活、低附加值的活。以資料标注為例,一些科技大廠和資料服務商常常在經濟欠發達的地區設立資料标注團隊,助力當地群衆就業的同時降低人力成本。然而在大模型時代,資料品質要求大大提升,資料處理難度變大,過往依賴低成本勞動力、“價低走量”的模式不再成立。

“以前中專生或高中生就可以滿足資料标注的要求,如今需要招聘大學生,甚至是碩士生、博士生,處理指定行業的垂直類資料。”一名AI資料服務商向記者表示。據媒體報道,一家頭部大模型廠商建立的資料标注基地,第一批标注員的大學率達到了100%。毫無疑問,至少在現階段,大模型讓資料标注員的學曆卷起來了,人力成本自然也水漲船高。

除此以外,将資料“喂”給大模型之前可能需要對其進行初加工和預處理,需要搭建新的平台。對于AI資料服務商而言,則需要布局資料存儲和處理的硬體裝置,同時也必然伴随着更多算法工程師的人力投入。而且在大模型浪潮下,一些積累了高品質行業資料的資料商已經不滿足于提供資料服務,而是自己下場搭建行業大模型——而這則是更大的一筆投資。

是以,布局大模型注定是一項“燒錢”的業務。反映在二級市場上,多家開展資料業務的A股上市公司釋出了定增募資方案,以滿足大模型的研發投入。6月,海天瑞聲釋出了向特定對象發行A股股票預案,拟募資不超過7.90億元,用于AI大模型訓練資料集建設項目、資料生産垂直大模型研發項目;7月,星環科技釋出了向特定對象發行A股股票預案,拟募資不超過15.21億元,用于資料分析大模型建設項目、智能量化投研一體化平台建設項目等;8月,拓爾思釋出了向特定對象發行股票預案,拟募集資金不超過18.45億元,用于拓天行業大模型研發及AIGC應用産業化項目。

考驗——AI資料服務商業績普遍承壓

今年以來大模型持續火熱,點燃了一二級市場的投資熱情,但市場亦有質疑的聲音,擔憂高額的投資能否産生相應的回報。值得注意的是,在海天瑞聲和星環科技釋出定增募資預案後,兩家公司均收到了監管部門的問詢函,要求就募資的必要性、公司的現有業務及相關市場前景等問題進行具體說明。

海天瑞聲9月對問詢函的回複中提到,目前已面世的大模型産品以通用大語言模型為主,垂直領域及多模态領域的大模型數量仍然較少,資料需求尚未充分釋放。鑒于公司下遊大模型相關客戶的産品尚處于首代産品釋出初期或研發階段,市場尚未大範圍應用,相關資料需求将在産品投放市場後進一步釋放,公司大模型業務相關收入未來有望進一步提升。

星環科技9月對問詢函的回複中提到,基于目前人工智能行業的發展趨勢以及市場競争狀況,公司若不開展大模型相關研發,未來可能在相關領域無法繼續維持市場競争優勢。

在新技術浪潮滾滾而來時,每一個人都害怕被潮流抛棄,因而加速布局新的業績增長點。然而,從三季度财務報表來看,AI資料服務商的業績普遍面臨不小的壓力。

記者還注意到,海天瑞聲于10月25日釋出了定增調整方案,募資額由7.90億元下降至6.66億元,原計劃投向資料生産垂直大模型研發項目的拟投入募資金額縮水23.51%,原計劃投入AI大模型訓練資料集建設項目的拟投入募資金額縮水7.38%。

AI資料服務商業績承壓,押注大模型會否是一場危險的豪賭?這個問題或許還問得太早。一名券商人士向記者分析,搶占大模型商業化應用必然面臨高額的投入,但相關産業目前還在發展的初期,大模型尚需要時間下沉到更多的應用場景中,資料需求釋放也不是一朝一夕的事,無法以現階段的營收資料判斷未來的情況。

“做資料本身就是一項長跑,資料産業是一個長周期行業,需要提前布局和一些耐心。”晴數智慧創始人張晴晴說。她告訴記者,公司過去一直聚焦對話式的場景,積累了很多高品質的語音資料,其中就包括多說話人48kHz高采樣率的語音資料。最近,網絡上很多名人說道地外語或方言的AI合成視訊廣泛流傳,“視訊口譯”成為了很熱門的一項應用,支撐這項應用的關鍵技術之一的語音複刻技術,正是使用了多說話人高采樣率的資料實作的。“最近向我們問詢的廠商非常多,但前提是我們在這個方向默默耕耘了7年,一直在沉澱和積累這種資料。”張晴晴說。

财通證券近期的一份研報指出,場景應用的落地成為AI大模型新一輪的發展動能,AI預訓練資料需求有望伴随場景應用的落地而快速增長。研報進一步指出,随着行業進入快速發展期,行業逐漸向多模态、合規化、半自動化演變,科技巨頭和專業預訓練資料服務商具備更強的研發優勢,有望形成資源整合和研發技術的壁壘,切分更多市場增量份額。

AI資料服務商有一個行業共識:大模型的出現對于資料産業是一個利好,2023年是資料産業高品質發展的元年。一位作家曾寫道,“你做三四月的事,在八九月自有答案。”AI資料服務商們在元年種下的這顆種子,未來能夠開出怎樣的花、結出多少果,或許也唯有時間能給我們答案。

責編:葉舒筠

校對:高源

版權聲明

證券時報各平台所有原創内容,未經書面授權,任何機關及個人不得轉載。我社保留追究相關行為主體法律責任的權利。

轉載與合作可聯系證券時報小助理,微信ID:SecuritiesTimes

END

繼續閱讀