80%的資料+20%的模型=更好的AI。
這是人工智能領域知名學者吳恩達在他45歲生日當天提出的人工智能領域的“二八定律”,他說“讓我們的工作從以模型為中心轉向以資料為中心,将對很多(人工智能)團隊大有裨益。”
在過往十幾年人工智能産業高速發展過程中,算法模型研發的重要性被空前放大,網際網路大廠更是動辄為算法工程師開出百萬年薪,這讓本就默默無聞的資料一度沒什麼光環。
實際上,時下主流AI算法要以資料驅動仍是一個不争的事實,在人工智能産業中,資料收集、資料處理仍是關鍵的前置環節,而支撐這些前置環節的是一個龐大的資料服務産業。
澳鵬就是這樣一家資料服務供應商,澳鵬Appen(中國)産品及研發總監錢程告訴至頂網,“随着近年來人工智能工業化和工程化成為趨勢,企業對定制化、複雜性的資料需求度越來越高,而對于一些商業化落地比較好的公司,他們需要的資料量也在成倍增長。”
資料成本的增加,也就成了企業加載人工智能引擎時無可回避的一個問題。
高品質資料為什麼是自動駕駛的關鍵
自動駕駛是當下商業化落地比較好的一個應用場景,也是澳鵬一個核心業務場景,自動駕駛涉及的資料服務按場景劃分又可以劃分為兩大類——艙内資料、艙外資料。
澳鵬Appen(中國)進階客戶經理張先雄告訴至頂網,“2016年-2020年,我們拿到的絕大部分資料服務訂單是以車内場景為主,車内場景主要涉及的是人車互動(TTS合成、語音識别)和車内人的輿情監控(人的情緒識别、是否安全駕駛的識别),相比起車外場景,車内場景相對簡單,能到千萬級别的項目很少。”
不過,随着自動駕駛程序提速,尤其是在自動駕駛道路測試牌照陸續發放後,自動駕駛廠商紛紛開始向L3及以上的自動駕駛技術沖刺,這時,自動駕駛廠商對艙外資料服務的需求也與日俱增。這樣的需求變化既有資料需求量的增長,也有更複雜的資料類型的變化。
從資料量來看,艙内資料需求量基本在億幀以下,而艙外資料需求量都在億幀以上,甚至會達到幾十億幀的規模;從資料類型來看,艙外的資料類型既有攝像頭拍攝的圖像資料,也有雷射雷達3D點雲資料,資料标注起來更為複雜。
以艙外為主的資料标注服務的不斷湧現,也使得資料成本急劇上升。
身在潮流中的澳鵬自然也感受到了這樣的變化,據張先雄透露,“從2020年左右,L3及以上的自動駕駛研發,越來越受市場關注,我們能看到一些重投入客戶一年會拿出幾個億的預算來做資料标注,少一點的也在千萬級别。”
僅僅是每年在資料标注上的投入,就已經相當于不少中小型企業的年營收,這也使得提起人工智能時,不少中小體量企業會望而卻步。
對于企業而言,如何低成本擷取高品質資料就成了他們在這個時代的剛需。
資料如何降本、增效、精準化
作為一家成立于1996年的資料服務公司,澳鵬在資料服務領域已經深耕多年,根據澳鵬最新釋出的《人工智能和機器學習全景報告》調查資料顯示,42%的技術專家表示, AI生命周期中的資料擷取階段很有挑戰性。這樣的挑戰同樣存在于自動駕駛領域。
錢程告訴至頂網,AI在自動駕駛項目中部署産生的成本主要來自兩方面,一方面是硬體成本,另一方面則是人力成本。人力成本主要集中在資料服務上,這其中既有平台建設上的人力投入,也有資料采集、資料标注上的人力投入。
以特斯拉為例,特斯拉現在已經建立起千人規模的資料标注團隊,搭建了一套用于資料标注的軟體平台,針對資料标注的軟體平台,特斯拉還有一個完整的開發維護團隊。
實際上,除了自建資料服務團隊外,不少車廠也在與資料服務商合作,以此降低人力成本。張先雄告訴至頂網,“國内不少整車廠、汽車解決方案廠商,以及造車新勢力都在使用我們的資料服務,自動駕駛領域的營收也已經占到我們公司整體營收的較大比重。”
以澳鵬與某自動駕駛廠商艙外合作項目為例,張先雄透露,“項目推進過程中受到資料采集流轉集中度影響其實存在波峰波谷,在項目推進波峰期,有時一次會傳回幾億幀,甚至幾十億幀的圖像資料,對這些資料進行清洗、标注的團隊投入就要達到5000-10000人,即便是在波谷期也要一兩千人團隊做服務支援。”
目前,澳鵬在全球擁有超過100萬名技能娴熟的衆包資源,支援235+種語言和方言,遍布170+個國家和70000個地區,在中國擁有超過千餘名全職員工、1000+BPO資源、數萬名高品質本土衆包人員,擁有專業的評估和項目團隊全程跟進試标、采集、标注、質檢、驗收和傳遞流程。
除了通過與資料服務商合作以降低人工智能落地成本外,在澳鵬内部,也在通過搭建搭建資料标注平台來提效降本。
2019年,在人工智能高速發展這一年,澳鵬搭建了人工智能資料标注平台,錢程告訴至頂網,“平台帶來的效率提升是最直接的,也是最容易被客戶忽略的。”
實際上,平台開發最難的不是前期幾百萬、幾千萬成本的投入,而是搭建團隊有多少項目經驗,團隊見到過多少資料類型、看到過多少不同細分場景的資料邏輯和規則,“隻有經曆過多個項目、不同場景實戰經驗,才能打造出一個高效的資料标注平台。”
據錢程介紹稱,澳鵬MatrixGo資料标注平台可以兩部分能力:
第一,項目管理功能,在一個實際項目中,整個資料标注過程可以分為初始标注、多輪質檢,以及最後的資料驗收,整個過程還存在資料打回、資料鎖定、資料釋放等環節,例如在質檢環節通過的标注資料,沒能通過最終驗收,還會打回重新進行資料标注。MatrixGo平台針對這樣的場景可以建構靈活的工作流,整個工作過程可以自定義配置。
第二,資料标注工具,針對文本、圖像、視訊、音頻、3D點雲等各類資料,MatrixGo平台建構了一整套資料标注工具,澳鵬團隊在項目中也在使用這些工具,在這些項目中不斷打磨這些工具。
這樣一套平台既可以作為軟體直接提供給需要資料服務的廠商使用,也可以進行私有化部署,錢程告訴至頂網,”澳鵬正是通過這套平台推動資料降本,服務提效的。“
除了通過降低人力成本、平台成本,澳鵬還在合成資料上進行了重點布局,而合成資料,有可能成為未來資料降本的一個利器。
合成資料新趨勢
2022年3月,澳鵬以200萬英鎊收購了合成資料公司Mindtech Global的少數股權。與此同時,合成資料也正在成為行業的一個焦點。
“人工智能在實際落地之前通常針對特定場景需要做一些優化,這個時候會需要大量針對特定場景的資料作為AI算法模型的訓練資料,如果僅僅依靠現場采集,針對一些特殊場景,無法采集到足夠的訓練資料,這時合成資料就是一個很好的選擇。”
不過,這裡也存在一個人工智能技術發展成熟度的問題,由于自動駕駛針對艙外資料需求還普遍停留在優化普通場景的階段,對合成資料的需求度并不高,澳鵬在合成資料領域的布局也還未真正來到産業落地關口,不過張先雄相信,“未來合成資料一定會變得越來越重要。”
而當談到合成資料對人工智能降本的推動作用,張先雄告訴至頂網,“未來針對真正落地之前的特定場景的增效百分比,合成資料能夠達到80%,甚至更高。”