天天看點

不出所料,百度EasyDL市場佔有率還是第一

近日,全球權威咨詢機構 IDC(國際資料公司)釋出了中國《深度學習架構和平台市場佔有率》報告。調研資料顯示,截至 2020 年 12 月,百度的「零門檻 AI 開發平台」EasyDL 以 22.80% 的市場佔有率位列機器學習平台市場佔有率第一,并連續兩年保持市場第一。

不出所料,百度EasyDL市場佔有率還是第一

資料來源:IDC《深度學習架構和平台市場佔有率》2020.12。

報告指出,在機器學習平台方面,百度 EasyDL 的使用者認知度最高,也是受訪者使用頻率最高的平台。

據統計,自 2017 年推出以來,百度 EasyDL 已經累計服務了 70 多萬的使用者,覆寫 20 多個行業,得到了大量企業與個人開發者的廣泛認可與應用。

其實,随着 AI 技術落地的不斷深入,市場上已經湧現出多款緻力于降低 AI 應用門檻的訓練和服務平台,為什麼 EasyDL 如此受歡迎?哪些人、哪些行業在用?平台的背後有何支撐?今天,我們就來探讨一下這些問題。

為什麼 EasyDL 如此受歡迎?

要解釋 EasyDL 受歡迎的原因,我們就不得不提兩個理念。

第一個理念是:讓開發 AI 服務「像使用家電一樣簡單」。

在 EasyDL 誕生之前,百度大腦已經通過百度 AI 開放平台開放了多項标準能力,如人臉識别、文字識别、語音技術等,但随着 AI 落地的深入,不少企業發現,在越來越多的實際應用場景中,需要結合場景資料進行模型的定制。有研究顯示,這樣的定制化需求占比高達 86%。

但與之相沖突的是,大部分中小企業并不具備專業的算法開發能力,開發定制 AI 模型對于他們來說太難了。

以一家制作箱包的傳統企業為例。在箱包出廠之前,他們需要借助 X 光掃描箱包内是否含有針、剪刀等異物,然後靠人眼來檢查掃描圖像。但問題在于,有些「針」可能非常小,不易被肉眼察覺。是以,這家企業就在想:能否讓 AI 去「看」這些 X 光圖像。

不出所料,百度EasyDL市場佔有率還是第一

這就涉及到了定制 AI 模型的問題,因為通用的标準模型在識别「針」、「剪刀」等特定物體時可能達不到企業想要的準确率。如果你懂 AI,這個問題可能非常容易解決。可問題在于,這是一家制造類企業,真正懂 AI、擁有豐富模型訓練經驗的人才可能寥寥無幾。

當然,這還隻是其中的一道坎兒,其他坎兒還包括:資料如何采集?采集到之後還要花多少錢标注?模型訓練好之後要怎麼部署?部署之後效果不理想是不是還得花很長時間疊代?完成這些工作是不是需要組建一支技術團隊?如果這些問題得不到妥善解決,企業就會面臨項目成本高、周期長、前期對項目效果無法準确預期等問題。

針對這些問題,EasyDL 提供了「一站式 AI 服務」,把資料、訓練和部署的活兒都攬了過來,還實作了全流程自動化,使用者隻需要根據平台的提示進行操作即可,不懂算法、不會寫代碼都不是問題。

這就像使用家電一樣:你不必了解家電的内部構造和電路原理,也能享受家電帶來的便捷;同理,你不懂 AI,也能借助 EasyDL 享受到 AI 浪潮帶來的紅利。

第二個理念是:「像進階 AI 工程師一樣專業」去訓練高品質 AI 模型。

我們生活中有很多「傻瓜式」的産品。這種産品很多都有個特點:上手容易,但效果一般。是以,如何在降低使用難度的同時保證其專業性成為這類産品開發的難點。也就是說,機器可以包攬很多操作,幫助使用者實作「傻瓜式」操作,但機器本身不能傻,還要非常聰明。

越是追求使用簡單,它的内在就會越複雜,EasyDL 也是一樣。為了讓 EasyDL 像進階 AI 工程師一樣專業,百度從模型、資料、部署等多個方面進行了打磨。

不出所料,百度EasyDL市場佔有率還是第一

在模型方面,GPT-3 等超大模型已經證明了什麼是「鈔能力」。在現有的理論水準下,利用「海量資料預訓練 + 遷移學習」的範式提升模型性能已經成了一股風潮,但這股風潮對于中小企業、研究機構和個人研究者來說都很不友好,畢竟動辄成百、上千萬美元的訓練成本沒有多少公司能夠承擔。而且,這些超大規模預訓練模型很多都是不開源的,即使開源也可能存在各種局限。

在這方面,EasyDL 有一個強大的「底座」——百度開源深度學習平台飛槳。借助飛槳的強大能力,EasyDL 打包了各種任務的大規模預訓練模型。這裡說的「大規模」有多大呢?帶來的提升有多少呢?我們來看幾組資料:

  • 圖像分類的預訓練模型用海量網際網路資料進行大規模訓練(包括 10 萬 + 的物體類别,6500 萬的超大規模圖像數量),适用于各類圖像分類場景,平均精度可提升 3.24%-7.73%;
  • 物體檢測的預訓練模型用 800 + 類别,170 萬張圖檔以及 1000 萬 + 物體框的資料集進行大規模訓練,适用于各類物體檢測應用場景,平均精度可提升 1.78%-4.53%;
  • 自然語言處理的文心 ERNIE 2.0 模型學習知識超 10 億條,包含 1500 萬篇百科語料和詞語、實體知識,3 億篇文章的因果結構關系,700 萬輪人類對話,以及2000 萬的語言邏輯關系等知識,适用于各類 NLP 應用場景,在中英文的 16 個典型 NLP 任務上超越了業界最好模型;目前,最新版 ERNIE 模型已經累計學習 50 億條知識;
  • ……

這些資料說明,EasyDL 在很多方向都具備強大的通用知識,就像一個修煉了多年内功的武林高手。有了這些通用知識,模型隻需要學習少量帶有使用者領域專業知識的資料就可以「觸類旁通」,去解決特定場景下的任務。目前,EasyDL 已經支援圖像、語音、視訊、文本、OCR、結構化資料、商品檢測等多種模型類型。

為了提升模型性能,EasyDL 還内置了 AutoDL/ML 自動化模組化機制,包含自動資料增強、自動超參搜尋、自動網絡架構搜尋等技術,可以降低零算法基礎使用者的使用門檻,提升專業開發者的模組化、調參效率。

當然,資料的處理也是可以充分智能化的,這就要提到 EasyDL 的智能資料服務了。

為了實作資料采集、清洗、标注的一站式服務,EasyDL 建設了 EasyData 智能資料服務平台。

在資料采集方面,定制模型所需要的資料往往不能從網上直接下載下傳,而是需要建設符合實際場景的樣本資料集,對此,EasyData 提供了軟硬一體、端雲協同的自動資料采集方案,支援接入攝像頭采集圖檔、雲服務資料回流兩種資料采集方式。

在資料标注方面,EasyData 提供了圖檔、文本、音頻、視訊四種資料格式的 11 種資料标注模闆。但鑒于使用者的資料可能比較多,标起來費時費力,EasyDL 開發出了智能标注方案,還支援多人标注。在物體檢測、圖像分割、文本分類三類任務場景中,通過百度自研的 Hard Sample 主動學習挖掘算法,進行針對性适配,在同樣的模型效果名額下,可減少 70% 的資料标注量。

在資料清洗方面,EasyData 創新性地開放了圖檔資料清洗的完整解決方案,支援相似度去重、去模糊、裁剪、旋轉、鏡像 5 種标準的清洗方案,和自動識别人體、人臉等進階清洗方案等,大幅提升了清洗資料的效率。

模型訓練完成後就到了部署環節,這也是決定深度學習平台生态擴充能力的關鍵一環。

在這一環節,有些開發者可能會問:我的資料私密性要求高,EasyDL 訓練的模型可以本地部署嗎?對硬體要求高嗎?想開發安卓的圖像識别應用,平台是否支援?我想用裝置端 SDK,但沒有自己的前端智能硬體裝置怎麼辦?

目前,EasyDL 提供了公有雲 API、裝置端 SDK、本地伺服器部署、軟硬一體部署四種方案。

其中,公有雲 API 可以支援彈性擴縮容,并使用線上資料閉環手動挖掘識别有錯誤的資料,有效持續疊代提升模型效果。裝置端 SDK 支援超過 15 種晶片類型、Windows、Linux、Android、iOS 4 大常用作業系統,能滿足各種定制化模型在端側部署預測的需求。本地伺服器部署支援企業将 AI 模型部署在本地伺服器上,在本地區域網路進行資料互動,保護資料隐私。在軟硬一體方案部署上,EasyDL 提供了 6 款軟硬一體方案,支援專項适配與加速,覆寫高中低全矩陣,模型識别速度可提升 10 倍。

像家電一樣簡單的操作,像進階 AI 工程師一樣專業的能力,這兩個理念幫助 EasyDL 在短短的幾年内吸引了 70 多萬使用者。那麼,這些使用者都來自哪些行業?EasyDL 幫他們解決了哪些問題?我們來一起梳理一下。

哪些行業在用 EasyDL?

從整體來看,EasyDL 的使用者橫跨網際網路、智能硬體、零售、工業、醫療、安防監控、物流等多個行業,典型的應用場景包括生産安全、工業質檢、貨架巡檢、盤點計數等。

一般來講,降本增效是企業的普遍訴求。以噴油器制造企業柳州源創電噴為例,這家公司在進行汽車噴油器閥座的質檢時,每日的需求 4000-6000 件,峰值能達到 12000 件,但由于閥座體積非常小,人工檢測非常費力,正常上要由熟練勞工每天付出 4-7 班才能滿足質檢需求,時間成本與人力成本高昂。

通過一場競賽,柳州源創接入了 EasyDL 的圖像能力,讓 AI 作為 “質檢之眼”,實作了自動化檢測瑕疵。通過打造一整套瑕疵識别、自動化分類流轉的解決方案,柳州源創成功實作了零件瑕疵判讀的無人化,公司可節約近 60 萬 / 年的人力成本,檢驗效率整體提高了 30%,這一個點的技術優化,助推企業加快産業更新邁出了一大步。

不出所料,百度EasyDL市場佔有率還是第一
不出所料,百度EasyDL市場佔有率還是第一

在這一應用中,EasyDL 的能力與效果被完全發掘。雖然閥座體積小、被檢測瑕疵如黑點、劃痕等目标更小,但基于 EasyDL 底層的超大規模預訓練模型與優化封裝好的模型訓練算法,即使目标小也能準确完成識别,達到業務應用的要求。這樣優異的模型效果,是企業在追求 AI 服務時最為看重的要素之一,能夠幫助企業更高效地實作 AI 落地應用。

此外,EasyDL 還在諸多領域幫助企業實作業務和流程創新。

以地鐵維修為例,地下軌道建設和維修工作經常需要勞工進入地鐵的封閉軌行區進行操作,由于每次作業前都需要準備好必要的工具,是以工作前後都需要人工清點工具以避免遺漏在地下的封閉區域。而這樣傳統重複操作不光費時費力,往返路途也有很大的安全隐患。為此,長沙地鐵借助 EasyDL 自主研發了「智能維修頭盔」,能夠自動拍照并識别常用工具名稱和數量,及時檢視是否有遺漏,降低安全隐患。

不出所料,百度EasyDL市場佔有率還是第一

類似的應用還包括疫情期間的口罩佩戴識别、施工現場的安全帽佩戴識别等。

EasyDL 的背後:十年磨一劍

EasyDL 這款 AI 平台的成功,離不開百度多年以來在 AI 領域的技術積累。

2010 年初,已經有了 10 年技術積累的百度,開始全面布局人工智能,陸續開始了包括自然語言處理、機器翻譯、語音、圖像、知識圖譜、機器學習、資料挖掘、使用者了解等技術的研發。

在之後的十年裡,百度創造了多個「第一」:

  • 2013 年初,百度成立了世界上第一個深度學習研究院;
  • 2015 年,百度上線了世界上第一個大規模神經網絡機器翻譯系統;
  • 2016 年,百度釋出了開源深度學習平台飛槳,如今,飛槳已經成為中國首個開源開放、技術領先、功能完備的産業級深度學習平台;
  • 2019 年,百度 ERNIE 模型在國際權威的通用語言了解評估基準 GLUE 上首次突破了 90 大關,獲得全球第一;去年,這一模型又斬獲全球規模最大的語義評測比賽 SemEval 2020 5 項冠軍,重新整理多模态領域權威榜單 VCR,還拿到了世界人工智能大會的最高獎項——SAIL 獎;

這些奠基性的工作為 EasyDL 等産品的成功埋下了伏筆。

從技術到硬體,從場景到應用,通過百度 AI to B 的重要承載者和輸出者——百度智能雲,為各行各業大規模輸送百度的 AI 技術成果與平台能力,支援産業智能化更新。百度智能雲擁有中國最領先的 AI 開放平台,日調用量突破 1 萬億,已開放超過 270 項 AI 能力,培養了超過 100 萬人工智能領域的從業者,這個規模也在持續快速增長。

有了這樣堅實的支撐,百度 EasyDL 連續兩年保持市場第一也是意料之中。

繼續閱讀