天天看點

玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練

自從預訓練模型提出以來,預訓練就不停地重新整理我們的認知。最近大火的 GPT-3 參數量達到一千多億,訓練成本更是重新定義了什麼叫「壕無人性」:據海外媒體VB稱,預計GPT-3的存儲需求高達350GB、訓練成本超過1200萬美元。

對于我們普通使用者來說,這樣的成本也就隻能想想了。向 OpenAI 申請使用 GPT-3 API 之類的,基本也不會有回應。

當然,我們還有很多已經開源的預訓練模型可以選擇,但這些模型總有各種局限,可用的「超大規模」預訓練就更少了。

如果能有大廠總結了各種任務的大規模預訓練模型,并且好用又友善,那麼即使付出一些成本,我們也是非常樂意的。

最新更新的 EasyDL 平台恰恰滿足了這一需求。它引入了百度超大規模視覺、自然語言處理預訓練模型,結合遷移學習工具,隻需标注少量資料就能定制高精度頂尖模型,目前在圖像分類、物體檢測、單标簽和多标簽的文本分類、短文本比對、序列标注等任務領域都可以使用。

如果你的算力不夠強、資料不夠多、模型不夠好、服務部署也不夠靈活,可能還是選擇大規模預訓練模型、選擇平台與工具比較省事兒。

「超大」規模預訓練,獨此一份

大規模預訓練模型的效果毋庸置疑,它們在各自的領域都有非常優秀的屬性。基于預訓練模型,我們隻需要在小資料集上訓練少量步數,就可以獲得高精度模型效果。

而且,衆多文獻實驗都表明遷移學習非常有效,能夠讓預訓練模型将通用知識應用到特定任務。

但困難之處在于,我們手頭上掌握的都是一些小資料集,開源資料集也都有各自針對的領域,而通用的大資料集我們是很難擷取的。當然,這還沒有考慮算力。大規模預訓練是需要 GPU 叢集的,不是我們手上幾塊 1080Ti 能搞定的。

就算不考慮資料與算力,開源預訓練模型使用的訓練集也很可能與我們自己的資料集存在巨大差異。例如,預訓練模型的資料都是自然風景,但我們的資料集都是動漫人物。那麼放在一起就可能出現負向遷移,什麼訓練收斂慢、模型效果差等都會一一困擾着你。

是以,一個包含各類場景、覆寫使用者各類需求的超大規模資料集就顯得十分重要了。通過這個包羅萬象的超大規模資料集訓練所得的模型才能夠更好地适應各行各業的需求,我們才能在自己的資料集上得到效果更好的模型。

預訓練,交給大廠吧

這樣的超大規模預訓練,也就大廠能夠做到。百度獨有的超大規模資料集使其預訓練模型具備了更好的泛化能力,遷移學習的效果也更好,目前已覆寫自然語言處理和視覺兩大方向。

在自然語言處理方向,百度自研了業界效果最好的預訓練模型文心(ERNIE)。它開創性地将大資料預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本資料中詞彙、結構、語義等方面的新知識,實作模型效果不斷進化,如同人類持續學習一樣。

在剛剛結束的 2020 世界人工智能大會上,百度正式釋出了 ERNIE 的中文名 “文心”。同時,百度還摘得了大會頒布的最高獎項——Super AI Leader 獎,彰顯了在 NLP 領域的超強實力。

在最新的文心 ERNIE 2.0 中,中文模型已經學習了 1500 萬篇百科語料和詞語、實體知識, 3 億篇文章的因果結構關系, 10 億次的搜尋查詢與結果的對應關系,700 萬個人類對話,以及 2000 萬的語言邏輯關系知識。此外,模型還在持續不斷地模組化新的海量資料與能力,不斷地提升下遊的應用效果。這些硬核實力也讓文心(ERNIE)在 16 個中英文典型 NLP 任務上顯著超越了當時的 SOTA 結果。

目前,EasyDL 專業版已預置了領先的文心(ERNIE)預訓練模型 ERNIE 2.0,并配套了豐富的 NLP 經典算法網絡,支援文本分類、短文本比對和序列标注等典型文本處理任務,能夠在提升訓練效率的同時大幅度提升模型效果。

文心(ERNIE)在落地上的表現也非常出色。某綜合性電商平台使用 EasyDL 中的文心(ERNIE)搭建起了完整的智能評分系統。AI 賦能後的服務考核監督機制得以更新,使用者的差評回報都會被自動分析處理,大大提升了服務效率與服務品質。該系統将負面問題處理率由先前的 60% 提升到 100%,客服營運人力由 5 人 / 日降至 3 人 / 日。

在視覺方向,百度自研的超大規模視覺預訓練模型覆寫圖像分類與物體檢測兩個方向:

  • 圖像分類的預訓練模型用海量網際網路資料進行大規模訓練(包括 10 萬 + 的物體類别,6500 萬的超大規模圖像數量),适用于各類圖像分類場景,平均精度可提升 3.24%-7.73%;
  • 物體檢測的預訓練模型用 800 + 類别,170 萬張圖檔以及 1000 萬 + 物體框的資料集進行大規模訓練,适用于各類物體檢測應用場景,平均精度可提升 1.78%-4.53%。

在落地方面,日日生鮮超市使用 EasyDL 進行果蔬識别,以實作智能稱重結算。他們将 SDK 部署到安卓平闆并連接配接電子秤,大幅提高了稱重效率。重要的是,如果使用公開資料集預訓練模型,準确率隻有 90.5%,但更換百度超大規模視覺預訓練模型後,準确率上升至 98.1%,提升了 7.6 個百分點。

相比我們使用公開資料集或者開源的預訓練模型,百度的超大規模視覺和 NLP 預訓練模型能夠提供更高的模型準确率和更穩定的性能,而這一切都可以通過 EasyDL 專業版擷取。

易用才是最重要的

在讨論易用性之前,我們先來理一下使用開源預訓練模型的一般步驟:搭建開發環境、下載下傳模型、讀文檔、跑範例、寫接口加載資料,然後處理一堆報錯…… 而且,這還隻是訓練。如果要部署并應用新模型,中間還有大量工作要做,而這些都要我們手動實作。

相比之下,百度的超大規模預訓練模型用起來特别簡單,甚至都不需要怎麼寫代碼,設定幾個超參數就能開始遷移訓練。

現在,這些超大規模預訓練模型已經預置在 EasyDL 專業版中正式釋出。EasyDL 是百度面向企業開發者推出的零門檻 AI 開發平台,一站式支援智能标注、模型訓練、服務部署等全流程功能,平台預置了幾十種經典網絡和超大規模預訓練模型,并支援公有雲 / 私有化 / 裝置端等靈活部署方式。“使用簡單” 是 EasyDL 的一大特點。

EasyDL 用起來到底有多簡單?以視覺任務為例,在開始訓練之前,你隻需要進行三步操作:進入 EasyDL 平台并選擇專業版、建立并配置圖像分類任務、在「選擇預訓練模型」版塊選擇「百度超大規模資料集通用分類預訓練模型」。然後選擇資料集,加載模型,頂尖效果差不多就到手了。

玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練

前面都是正常操作,EasyDL 最好用的地方其實展現在部署上。對于新模型來說,部署是最複雜的,需要各種工程化操作。 

在使用百度超大規模預訓練模型訓練得到自己的高精度 AI 模型之後,部署到伺服器或者移動端都特别友善。EasyDL 提供端雲協同的多種靈活部署方式,包括公有雲 API、裝置端 SDK、本地伺服器部署、軟硬一體産品等。

值得注意的是,移動端輕量級部署 EasyDL 也提供了加速版裝置端 SDK,隻需要最少的記憶體,就能提供最快的預測。

因為是平台,資料采集與标注、超參搜尋與優化、部署工作都集中到了一起,預訓練模型的易用性很大程度上都展現在全流程支援。

效果看資料

最後我們再來看看效果。雖然之前已經提到過百度的這些超大規模預訓練模型性能很好,但我們并沒有一個直覺的了解。在這一部分,我們将通過幾大常見任務,看一看它們的效果到底好在哪兒。

先來看看圖像領域特别常用的 ResNet-101。下圖展示了 ResNet-101 在 ImageNet 和百度超大規模資料集上得到的預訓練模型在新的資料集上進行遷移學習後的效果。

從圖中可以看出,如果在 ImageNet 這樣的開放大資料集上完成預訓練,模型的效果确實比不上百度超大規模預訓練。當我們的資料集與 ImageNet 這些開放資料集有比較大的差別時,這點尤其明顯(比如,由于資料集 6 和 7 更加「小衆」,兩類模型效果差别也比較大)。

玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練

顯然,百度的大規模預訓練 ResNet-101 對各種場景都更加友好。如果我們把它當做骨幹網絡,并用于各種下遊任務,效果會更有保障,也更加穩定。

此外,不論是 ResNet 這種大模型還是 MobileNet 這種小模型,經過超大規模資料預訓練,它們的準确率和泛化能力都有比較大的提升。

當然,百度還新增了一些特殊模型,例如:為了提升訓練和推理速度而修改模型、采用弱監督預訓練提高準确率,構造更高效的分層殘差連接配接等等。這些新增模型不僅能利用資料上的優勢,模型上的能力也針對特定任務有了進一步改進。

玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練

以上模型均在 ImageNet1k 分類資料集上進行訓練和測試,它們都有一些改進,例如 EffcientNetB0_small 去掉了 SE 子產品,提升了推斷速度。

物體檢測也不例外,使用百度超大規模視覺預訓練,YOLOv3_DarkNet 相比一般預訓練模型平均提升 4.53 %,Faster_RCNN 相比于普通預訓練模型平均提升了 1.39%。

玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練

在自然語言處理領域,百度文心(ERNIE)更是以其卓越效果橫掃各大榜單:

  • 2019 年年底,文心(ERNIE)在自然語言處理領域權威資料集 GLUE 中登頂榜首,以 9 個任務平均得分首次突破 90 大關重新整理該榜單曆史;
  • 2020 年 3 月,文心(ERNIE)在全球最大規模之一的語義評測 SemEval 2020 上取得了 5 項世界冠軍;
  • 2020 年 7 月,文心(ERNIE)登頂視覺常識推理權威榜單 VCR。

目前,文心(ERNIE)已廣泛應用于搜尋引擎、資訊流、智能音箱等使用者産品中,同時也在金融、通信、教育、網際網路等行業中落地,成為推動産業智能化轉型的利器。

總之,無論是計算機視覺還是自然語言處理,百度 EasyDL 中的各種大規模預訓練模型都可以為我們省去不少麻煩。從資料的角度來看,收集特定領域的業務資料成本并不低,而且資料量不夠大還會影響模型效果。從部署的角度來看,模型部署過程中有各種各樣的坑,非常耗費精力。相比之下,不如把這些工作都交給 EasyDL ,借助預訓練模型與遷移學習的強大功力,用更少的算力和資料訓練出更強大的優秀模型,成為新一代的頂尖煉金師。

聚焦于滿足旺盛的産業智能化需求和快速增長的AI生産規模,百度推出飛槳企業版,包括零門檻AI開發平台EasyDL和全功能AI開發平台BML。EasyDL為零算法基礎使用者提供包含資料服務、模型訓練、模型部署的一站式AI服務;BML面向專業算法工程師和企業開發團隊提供靈活定制和深度內建的機器學習開發平台,推動AI創新和實踐落地。

繼續閱讀