天天看點

36氪首發丨前蔚來高管創業:光輪智能獲數千萬元融資,用生成式AI來訓練AI

作者:36氪

文丨彭蘇平

編輯丨李勤

36氪獲悉,合成資料公司「光輪智能」近期完成了天使+輪融資。這家今年剛成立的新公司,已經完成種子輪、天使輪、天使+三輪融資,累計融資金額達數千萬元人民币,投資方包括SEE Fund、奇績創壇、辰韬資本、變量資本等。

光輪智能緻力于為企業落地AI提供合成資料解決方案,結合生成式AI和仿真技術,為行業提供3D、實體真實、可泛化的合成資料,解決自動駕駛、具身智能發展中真實資料使用率低、标注成本高、回環周期長、長尾場景(Corner Case)缺乏等問題。目前,公司産品已經開始服務于數家自動駕駛和機器人公司。

光輪智能創始人兼CEO謝晨博士是國際頂尖的仿真專家,曾在英偉達、Cruise、蔚來等企業擔任自動駕駛仿真負責人,國際首創将生成式AI融入仿真,有行業内最多次從0-1的合成資料開發、落地經驗。

資料是AI的燃料。在深度學習算法中,通過大量的标注資料,算法能夠學習不同類型的模式和規律,也隻有大量、完整且高品質的訓練資料,才能增加算法模型的可靠性。今年爆火的大模型GPT,其進化核心就來自于資料和參數的增加。

在今年的ITF World 2023半導體大會上,英偉達創始人兼CEO黃仁勳提出,下一波AI浪潮是“具身智能(embodied AI)”,即能夠了解、推理并與實體世界互動的智能系統,包括機器人、自動駕駛汽車等。這些人工智能的最新發展,無不需要大量高品質3D資料進行訓練。實際上,現階段在自動駕駛領域,特斯拉、Waymo、Cruise等行業頭部玩家,都在通過大量的路上資料回傳方式收集資料,以提升算法水準。

但大規模的資料擷取是一場曠日持久的資源競賽。

傳統的自動駕駛、機器人等行業資料采集和标注大量依賴人工,成本高且品質難以保證,同時真實資料難以跨車型、跨平台使用,使用率低、存儲成本高。另外,自動駕駛中大量的Corner Case難以捕捉,這些都讓自動駕駛的資料擷取拉出了超長戰線,模型算法也得不到突破性提升。

而長久來看,高品質的真實資料也會成為越來越稀缺的資源。

當下的算法疊代已經“吃”掉了大量資料,而業内的一些研究發現,未來自然資料的積累可能很難滿足AI對資料的需求。一篇麻省理工學院等高校、機構聯合釋出的論文就推測,高品質的語言資料将在2026年前被耗盡,而自動駕駛、機器人需要采集的是3D實體真實的動态場景資料,擷取更加困難、相對文本更加稀缺。

“合成資料”有望在很大程度上解決AI“資料饑渴”的問題。顧名思義,這是一種通過AI和仿真、基于小樣本真實世界資料生成的資料。合成資料的優勢是采內建本低、自帶标注、跨平台通用性強,甚至能有針對性地生成潛在危險場景、補充邊緣場景。

在自動駕駛領域,特斯拉、Waymo、Cruise、英偉達等企業已經不同程度地布局了合成資料,并将其作為技術棧的核心之一。其中,謝晨就曾主導過Cruise、英偉達、蔚來等合成資料技術0-1落地,而合成資料也已經是他們算法訓練重要的燃料來源。

謝晨告訴36氪,業内更常見的合成資料來源于仿真,但仿真資料無法滿足模型訓練的高品質需求。在仿真的基礎上融合生成式AI,以一小部分真實資料為藍本,通過生成式AI技術來放大資料量級,并基于自研的“端到端真實性評測算法”保證資料品質和效能,可生成高資訊增量的、用于算法訓練的資料。

“生成式AI技術在過去一年飛速發展,精确可控度、泛化性、品質大幅提升。經過生成式AI與仿真結合,我們可以基于客戶的資料,為他們提供百萬車隊量級的資料規模和能力。你可以想象,通過光輪每個自動駕駛公司、主機廠、機器人公司都可以擁有特斯拉車隊量級的資料能力。”謝晨表示,而這些資料的成本隻有真實資料的十分之一。

合成資料需要足夠真實、可泛化,代表實體世界的場景分布,且可以給模型訓練提供資訊增量,這依賴于合成資料廠商自身的AI算法以及仿真能力。

據介紹,光輪智能組建了一支生成式AI+仿真的國際領先的專家團隊,憑借最多次合成資料的落地經驗和獨創的真實性評測算法,可保證每一幀資料都足夠真實、對模型有價值輸入。近期,光輪智能入選北京市通用人工智能産業創新夥伴計劃,是資料夥伴中唯一合成資料廠商。

OpenAI創始人Sam Altman曾公開表示:“合成資料是解決大模型資料短缺的最有效辦法。”光輪智能希望通過算力驅動的資料來替代現有人力驅動的資料,進而推動資料界結構性變革,将資料邊際成本變為固定成本,打造AI時代“資料界的英偉達”。

投資人評論

無限基金合夥人 馬麟

無限基金長期關注創新技術,緻力于長期陪伴具有創業精神的優秀團隊。人工智能技術的進步,對于資料的品質、數量,提出了更高要求。在未來的行業變革中,資料的邊界決定了模型的邊界,一定會是産業争奪的戰略資源。光輪智能創始團隊長期深耕合成資料技術,将大幅度提高真實資料使用率以及合成資料供給,降低資料成本。這一類技術與相關企業,對于大陸人工智能産業的進步将貢獻重要的力量。

奇績創壇合夥人 毛聖博

光輪智能團隊憑借其獨特的合成資料技術和對自動駕駛、具身智能等領域的深度洞察,展現出了令人印象深刻的創新力和執行力。他們将合成資料多次成功應用算法訓練中,進而提升了模型的泛化能力。乘着大模型的東風,未來"Data is the New Software",期待光輪智能在AI領域持續發光發熱,推動行業的進步!

辰韬資本合夥人 蕭伊婷

算法、算力和資料是人工智能的三要素,其中合成資料是建構高品質AI模型的核心關鍵。真實資料的成本過高,目前人工智能領域的頭部公司OpenAI、微軟、Tesla等,都已經開始用合成資料來訓練AI模型。我們認為用合成資料訓練大模型将會很快成為主要趨勢。光輪團隊在合成資料領域的能力和經驗是非常稀缺的,我們相信光輪在合成資料領域能占據全球領先的地位。