天天看點

合成資料或破資料量瓶頸,哪些領域将率先落地

随着人工智能技術的蓬勃發展,高品質資料的重要性愈發凸顯,成為推動大模型競争的關鍵要素之一。然而,資料存量的增長速度遠遠低于資料集規模的增長速度,據人工智能研究機構epoch的研究預測,語言資料可能在2030-2040年耗盡,其中能訓練出更優性能的高品質語言資料甚至可能在2026年耗盡。

高品質資料的稀缺性導緻資料采內建本水漲船高,許多公司面臨着資料擷取困境。是以,引領人工智能領域的企業,如微軟、OpenAI、Cohere等公司,紛紛轉向使用合成資料作為解決方案,以降低資料成本,推動AI技術的發展。

合成資料有望成為解決資料不足、資料采內建本過高的關鍵,那麼合成資料是如何合成的?與“真實”資料相比有何優劣?應用場景有哪些?哪些公司在合成資料布局上更有優勢?

合成資料有望助力突破資料瓶頸

在人工智能邁入2.0時代的關鍵轉折點,資料品質和數量成為了最為緊迫的挑戰。然而,現有真實資料采集的成本高昂,且存在有限性,限制了人工智能技術的進一步發展。

Forrester将合成資料、強化學習、Transformer 網絡、聯邦學習和因果推理視為實作人工智能2.0的五項關鍵技術進展。合成資料是通過計算機模拟或算法生成的帶有注釋的資訊,可模拟實際情況,補充真實資料的不足,提高資料品質和數量,并有效降低資料采集和處理的成本。

合成資料或破資料量瓶頸,哪些領域将率先落地

合成資料能夠解決資料匮乏、資料品質、資料隐私等問題,提供現實世界難以或無法采集的資料,提高資料多樣性和提升訓練速度。

合成資料或破資料量瓶頸,哪些領域将率先落地

根據 美國AI研究機構Cognilytica 的資料,2021 年合成資料市場規模大概在 1.1 億美元,到2027 年将達到 11.5 億美元。Gartner 預測,到 2024 年用于訓練 Al 的資料中有 60% 将是合成資料,到2030 年 AI 模型使用的絕大部分資料将由人工智能合成。

資料合成可以分為兩類,一是通過傳統算法合成,需要明确的實體規律,例如圖像生成,通過3D模組化來渲染圖像。難點在于逼真細緻的模組化,場景靜态與動态合理與自洽,快速的模組化技術與合理的模組化成本。當模拟技術發展到⼀定的階段,通過模拟獲得感覺資料是⼀種更好的擷取資料的⽅式。因為其成本更低,品質更高,限制更少。

二是通過生成模型(AI)合成,這類資料并不是從⾃然中采集得到的,⽽是智能體⽣成的,比如⽂本資料。這類資料需要通過複雜的智能活動才能⽣成,AI可以模仿人類⽣成這類資料。利用已經學到的知識,AI通過思考可以對已有的知識進行整理,去僞存真,得到更⾼品質的資料,并通過邏輯推理,發現新的知識。由于世界上可用的開源⽂本資料已經大部分被利用了,可以預見這類AI生成的資料的比例會越來越高。

合成資料或破資料量瓶頸,哪些領域将率先落地

國外的主流科技公司紛紛瞄準合成資料領域加大投入與布局。微軟、英偉達、亞馬遜等科技巨頭均推出了合成資料的工具或者應用,用于訓練自主飛行器、為AI訓練建構具有實體屬性的合成資料技術引擎等。

AI訓練資料服務商appen表示,在處理真實世界的資料時,身份隐私的重要性将繼續增加。合成資料建立人工生成資料集,是以資料中自然不包含個人身份資訊。合成資料還可以快速生成大量資料,是以可以在無需時間或安全限制的情況下生成邊緣用例資料。在2022年預測中,預見了對合成資料的需求,并與Mindtech合作,為客戶提供合成資料。

中航證券進階分析師劉牧野對第一财經表示,合成資料相關創新創業方興未艾,合成資料創業公司不斷湧現,合成資料領域的投資并購持續升溫,開始湧現了合成資料即服務這一發展前景十分廣闊的全新商業模式,建議關注國内進行AI算法研究,且擁有龐大資料的公司,包括百度(09888.HK)、阿裡巴巴(09988.HK)、騰訊控股(00700.HK)、金山辦公(688111.SH)、中國電信(601728.SH)等。

合成資料有望在金融、醫療、智能駕駛等領域率先落地

合成資料早期主要應用于計算機視覺領域,目前,合成資料正迅速向金融、醫療、零售、工業等諸多産業領域拓展應用。合成資料以其獨特優勢,為模型訓練提供了更多樣化的資料,進而使人工智能模型更可靠、更準确。這一趨勢對于面臨資料稀缺性或涉及敏感資訊處理的行業尤為有益。

有研究人員在2018年曾發現,頂尖的面部識别軟體在識别膚色較深的人時,錯誤率高達34%。原因就在于用于訓練這些模型的資料缺少一整個人類種族的子集。在這種情況下,合成資料可以在不需采集更多真實資料的情況下,輕松擷取更多樣化的訓練資料。通過改變同一人的發型、頭部姿勢等特征,或者創造具有不同膚色、種族特征、骨骼結構等的面孔,讓模型得到更廣泛的訓練,進而提高了可靠性。

在資料敏感的金融和生物醫藥領域,合成資料也展現了其隐私保護的巨大潛力。在金融行業,合成資料可以為金融機構提供一種有效的方法,用于在不提供敏感的曆史交易資訊的前提下,訓練量化交易模型,進而提升獲利能力。此外,合成資料還可以用于訓練客服機器人,改善客戶服務體驗,為金融機構提供更智能、高效的客戶支援。

合成資料的應用為藥物研發工作也提供了巨大幫助。通過合成資料集,可以在不洩露患者隐私資訊的條件下訓練相關模型,加速新藥研發過程,發現潛在的治療方法,提高醫藥領域的效率和準确性。

生物醫藥企業成都先導(688222.SH)通過海量合成資料、篩選資料與化合物活性資料,對萬億級庫不斷進行分子成藥屬性與化學合成品質的疊代與提升。截至2022年報告期末,公司的 DEL 庫分子數量已超過 1.2 萬億個。

合成資料能夠在短時間内生成大量資料,這對于依賴罕見事件的真實資料場景也尤為重要,例如在自動駕駛的性能測試中,極端天氣下擷取真實路況資料可能存在困難或危險。在所有可能的駕駛體驗中,有太多的變量需要考慮,不能完全依賴于真車進行現場測試。合成資料比人工采集資料更安全、更快捷。

這些行業中,合成資料的應用都能有效解決資料隐私和資料擷取的挑戰,為各領域的科技發展和商業應用提供了全新的解決方案。通過合成資料的引入,這些行業能夠更好地利用大資料、人工智能和機器學習等先進技術,實作更高效、更智能、更安全的發展,為數字經濟時代帶來更多創新與進步。

不過,appen表示,合成資料的使用速度大幅增長雖然為企業節省了時間和資金,但并非沒有挑戰,合成資料缺乏異常值,而這些異常值出現在自然的真實資料中,對于模型精确度至關重要。另外,合成資料的品質通常取決于用于生成的輸入資料的品質,輸入資料中的偏見很容易傳播到合成資料中,是以不能低估使用高品質資料作為起點的重要性。是以需要将合成資料與人工标注的真實資料進行比較,作為額外的輸出控制。

倍霖科技CEO杜霖也對第一财經表示,知識類合成資料會和真實資料共存、⽆法取代,但是合成資料的⽐例會逐漸升⾼。真實資料承載着現實世界的新的資訊,描述世界的最新狀态,合成資料達标的是已有的規律和資訊,是對過去的總結和推演發展,合成資料的⼤規模應⽤在于品質和成本。