天天看點

“資料為王”是真的嗎?谷歌輕撫着100倍的資料量點了點頭

雷鋒網 ai

科技評論按:過去十年裡,研究人員在計算視覺領域取得了巨大的成功,而這其中,深度學習模型在機器感覺任務中的應用功不可沒。此外,2012

年以來,由于深度學習模型的複雜程度不斷提高,計算能力大漲和可用标記資料的增多,此類系統的再現能力也有了較大進步。

不過在這三個輔助條件中,可用資料集的發展速度并沒有跟上模型複雜度(已經從7

層的 alexnet 進化到了 101 層的 resnet)和計算能力的提高速度。2011 年時,用于訓練 101 層 resnet

模型的依然是隻有 100 萬張圖檔的 imagenet。是以,研究人員一直有個想法,如果能将訓練資料擴容 10 倍,準确率能翻番嗎?那麼擴容

100 倍或 300 倍又能得到什麼樣的成果呢?我們能突破現有的準确率平台期嗎?資料的增多是否能帶來更多突破?

“資料為王”是真的嗎?谷歌輕撫着100倍的資料量點了點頭

在《重新審視深度學習時代資料的非理性效果》(revisiting

unreasonable effectiveness of data in deep learning

era)這篇論文中,研究人員先是吹散了圍繞在海量資料和深度學習關系周圍的迷霧。他們的目标是探尋如下問題:

1. 如果給現有算法源源不斷的加标簽圖檔,它們的視覺再現能力會繼續提高嗎?

2. 在類似分類、目标檢測和圖像分割等視覺任務中,資料和性能間關系的本質是什麼?

3. 在計算視覺應用中,能應對所有問題的頂尖模型是否用到了大規模學習技術呢?

不過,在考慮以上這些問題前,我們先要考慮去哪找這個比

imagenet 大 300 倍的資料集。谷歌一直在努力搭建這樣一個資料集,以便提升計算視覺算法。具體來說,谷歌的資料集 jft-300m

已經有 3 億張圖檔,它們被分為 18291

個大類。負責為這些圖檔加标簽的是一個專用算法,它用到了原始網絡信号、網頁關系和使用者回報等一系列資訊。

完成加标簽的工作後,這 3

億張圖檔就有了超過 10 億個标簽。而在這些标簽中,大約有 3.75

億個被負責标簽精度的算法選了出來。不過即使這樣,整個資料集中的标簽依然存在不少噪聲(noise)。初步估算的資料顯示,被選中圖檔的标簽中有

20% 都屬于噪聲範圍,由于缺乏詳盡的注釋,是以研究人員無法精确判斷到底那些标簽應該被取消。

進行了一番實驗後,研究人員驗證了一些假設,同時實驗還帶來一些意想不到的驚喜:

1. 更好的表征學習輔助效果。實驗顯示,大規模資料集的使用能提升表征學習的效果,反過來還提高了視覺任務的表現。是以,在開始訓練前搭建起一個大規模的資料集還是相當有用的。同時,實驗也表明,無監督和半監督表征學習前途無量。此外,隻要資料規模起來了,噪聲問題就變得不再重要了。

2. 性能會随着訓練資料數量級實作線性增長。也許整個實驗最驚人的發現就是視覺任務中的性能和用于表征學習的訓練資料規模間的關系了。它們之間居然有着異常線性的關系,即使訓練圖檔多達 3 億張,實驗中也沒有出現平台期效應。

“資料為王”是真的嗎?谷歌輕撫着100倍的資料量點了點頭

3. 容量非常重要。在實驗中,研究人員還發現,想要充分利用這個巨大的資料集,模型的深度和容量必須足夠大。舉例來說,resnet-50 在 coco 目标檢測基準上就隻有 1.87%,而 resnet-152 就有 3%。

4. 新成果。在本篇論文中,研究人員還在 jft-300m 資料集訓練的模型中發現了不少新成果。舉例來說,單個模型已經可以達到 37.4 ap,而此前的 coco 目标檢測基準隻有 34.3 ap。

需要注意的是,在實驗中用到的訓練制度、學習安排和參數設定都是基于此前對

convnets 訓練的了解,當時的資料集還是隻有 100 萬張圖檔的

imagenet。在工作中,研究人員并沒有用到超參數的最優組合,是以最終得到的結果可能并不完美,是以資料的真實影響力在這裡可能還被低估了。

這項研究并沒有将精力集中在特定任務資料上。研究人員相信,未來擷取大規模的特定任務資料将成為新的研究重心。

此外,谷歌那個擁有 3 億張圖檔的資料集并不是終極目标,随着技術的發展,建設 10 億+圖檔資料集的任務應該提上日程了。雷鋒網(公衆号:雷鋒網) ai 科技評論表示對此拭目以待。

本文作者:大壯旅

繼續閱讀