本文來自AI新媒體量子位(QbitAI)
AI火熱,但并不是所有人都清楚“資料集”的意義。
首屆“AI Challenger·全球AI挑戰賽”在9月4日正式開始後,既收獲了參賽選手的第一手回報,也引來不少吃瓜群衆圍觀。
參賽選手評價,“人體骨骼關鍵點”、“圖像中文描述”和“英中機器翻譯”3大資料集令人意外又驚喜,他們沒想到首屆比賽,主辦方就在資料集上花費了大心思,品質大大超出預期。
然而對于好奇者來說,他們尚未清楚資料集背後的意義,也不知道一個經典資料集的評價标準,需要從哪些次元展開。
于是本着科普的初衷,我們邀請到本次AI Challenger全球AI挑戰賽的評委、中科院自動化所模式識别國家重點實驗室副主任王亮博士,解答最常見的一些資料集相關的問題,王亮博士也向我們解釋了圖像領域經典資料集之是以經典的原因。

△ 王亮博士
大家好。
我是中科院自動化所模式識别國家重點實驗室的研究員王亮,主要的研究領域是模式識别,具體的研究方向是視覺模式分析,主要對圖像、視訊等視覺資料進行處理。
在圖像處理方面,主要集中于目标檢測、識别、分割與檢索等。在視訊處理方面則更多關注智能視訊分析,比如視訊中個體檢測、跟蹤、身份識别、行為識别、事件分析等。
這或許是我受邀成為AI Challenger全球AI挑戰賽評委的核心原因,希望我在圖像識别相關評選中給于指導、發揮作用。
而從我的角度來講,确實也想為國内人工智能的推動做些事情。
現在的國内人工智能正處于如火如荼的發展爆發期,從上到下都很重視,比如今年7月份國家還釋出了《新一代人工智能發展規劃》,是以舉辦這個AI挑戰大賽是一個正當其時且非常有意義的事情。
其次,這次比賽與計算機視覺研究密切相關。我本人一直在從事計算機視覺領域研究、組織與推廣工作,比如我是中國計算機學會-計算機視覺專委會(CCF-CV)的秘書長,也是中國圖象圖形學學會視覺大資料專委會主任,是以有責任、有義務、也非常願意為推動國内視覺領域的發展做一些力所能及的事情。
不過,辦這樣的大賽并不簡單,最具挑戰的當屬“資料集”。
很多人可能已經知道目前人工智能發展的三大要素:資料、計算力和算法,知道資料集、計算力和算法是相輔相成、互相提升的,三者缺一不可,但可能不太清楚資料集具體發揮的作用。
直白來說,資料是基礎,任何研究都離不開資料,巧婦難為無米炊。除了資料之外,計算能力也非常關鍵。深度學習算法之是以可以興起,一方面是大規模資料的出現,另一方面得益于高性能計算,可以讓龐大的模型能夠被很好的拟合。
舉個例子,ImageNet之前有Pascal VOC競賽,剛開始隻有20個目标類别,後來ImageNet擴充到1000類目标,資料量也達到百萬級。資料規模大了,傳統算法準确度就大幅下降。但是大規模的資料集有助于研究者開發更進階的模型來不斷提升算法的精度。比如2012年Hinton将CNN模型結合GPU加速應用到ImageNet資料上,其準确率相對于當時最好的傳統算法提升了11%,進而到最近年的95%以上。
這種算法結果準确性的提升,正是資料集帶來的。
在學界,資料集的意義更加直接:沒有資料集,就無法展開相應的研究工作。
是以在确定研究課題後,最為首要的任務就是獲得相應的資料集,通常有這樣幾種方案:
1)确定特定研究方向後,在網絡上查找是否有公開、共享的資料集;
2)如果該研究方向目前沒有公開資料集或者公開資料集不适合自己的具體研究問題,那就可能需要親自去建立新的資料集。比如我博士期間做步态識别研究方向,當時國際上為數不多的公開資料集規模都很小(10人左右)、且行走視訊基本都是側面室内拍攝的,是以當時我們建了一個規模達到20個人、包括3種不同視角的戶外場景資料集;
3)參加公開的技術比賽(比如AI挑戰賽),這樣的比賽通常會提供合适的資料集;
4)與企業進行合作,企業方一般可提供所擷取的與實際應用更相關的資料集。
事實上,不同研究方向基本上都有與之相對應的資料集,比如,不僅有文字處理和圖像分類任務相關的資料集,也有用于行為識别和目标檢測的資料集等。
于是也就産生了不少經典資料集。
比如ImageNet,它是專門用于圖像分類和目标檢測的大規模資料集,基于此資料集的LSVRC競賽開展了8年,産生了廣泛的影響。
除了ImageNet,還有MS COCO資料集,它包含更多的标注資訊,除了圖像分類和目标檢測外,它還可以用來做圖像檢索、語義分割、圖像描述等多種任務。
今年随着ImageNet比賽的終結,李飛飛教授又提出了VisualGenome資料集,它的規模更大、标注資訊更多,并向一些新的任務上進行了拓展,包括視覺關系檢測等。由此可見,資料集也是在研究需求的推動下不斷向前完善和發展的。
對于ImageNet和MS COCO,也有不少人做出過對比評價,我也可以簡單談談我的觀點:
毫無疑問,ImageNet資料集的出現極大推動了目辨別别、檢測方面的研究進展。但在MS COCO資料集上,不僅可以做識别和檢測,還可以做一些語義分割和圖像描述等相關的研究任務。
這幾年CV領域發展很快,之前大部分研究精力在做“感覺”,現在開始更多地嘗試“了解”。我們小組目前研究較多的多模态學習、跨模态檢索,包括最近比較火的“看圖說話”任務(圖像描述),都是可以基于MS COCO資料集去研究。可以說,資料集的類型很大程度上還是與研究目的息息相關的。
當然也會有同學問,什麼樣的資料集才能稱得上經典資料集?背後的評價次元有哪些?我認為有三條标準。
第一,規模要大,大規模資料集上實驗出來的結果,更有說服力,比如規模至少要在100萬級以上;
第二,多樣性豐富一些,比如對于人臉識别任務,要求光照、表情、視角等變化因子具有多樣性;
第三,更接近實用需求,而不是完全實驗室場景下采集的資料集。
可能前兩點原因比較好了解,但資料集采集為什麼還要分實用需求和實驗室場景呢?
一般來說,如果資料集分布越接近真實應用場景,就越有可能對研究工作有更正向的推動作用。
比如最早期的個體行為識别資料集,通常是簡單場景下安排一些人員模拟表演各種動作,這樣采集的行為視訊自然跟現實生活中的行為不太一樣,這樣的限制實驗場景下的資料集不可能真正用于算法的實際性能評估。
是以從實際應用中擷取資料集對于算法開發和評估會更有意義,比如說從企業獲得資料。
但從企業獲得資料并不容易,企業主動開放共享的案例更是少之又少。
因為這些企業資料中,可能涉及到資料版權、商業保密、使用者隐私等幾個重要因素。另外,重要的政府機構相關資料也很難擷取,比如跟公安相關機構合作,一般也很難擷取到這些部門所擁有的大量的實際監控資料,這可能也是出于國家安全、隐私保護等方面的原因。
是以此次AI Challenger全球AI挑戰賽之是以會在資料集方面受到關注,我覺得跟企業資料共享密不可分。
當然,回到我們評價資料集的三個标準,其他兩項也符合“經典資料集”的要素。資料規模上超過100萬量級已成現實。多樣性方面也有潛力。
比如目前這次AI挑戰賽,在圖像描述、骨骼關鍵點等任務上提供的實際場景資料集規模上也許是國際上比較大的。如果接下來能不斷補充資料,在規模上、多樣性上進一步完善,做成系列性的比賽,就有可能成為經典的資料集。
是以我也衷心希望能有更多優秀選手參賽,通過此次精心打造的資料集打磨出好算法。
作為大賽評委,我覺得首先自然關注的就是方法的性能優劣,比如以準确率為名額;當然對于視覺算法而言,通常也比較關注實時性、魯棒性等,是以也可以考慮方法的綜合性能。
不過,在性能相近情況下,評委可以關注所使用方法的創新性。獨創性的模型和方法會更值得關注和鼓勵。
最後,對于參賽學生,我也有三點建議:
1)現在深度學習是推動AI進步的重要技術之一,可能這次比賽很多選手會選擇使用深度學習技術。如果有學生還不太了解深度學習方面的技術,建議他們學習相關課程(視訊),比如斯坦福的深度學習公開課程等。
2)針對這次比賽的任務-關鍵點檢測,推薦大家去看下CMU的openpose工作,這個工作做得很好,在CVPR2017上的實際示範效果也很不錯。
3)針對這次比賽的任務-圖像描述,現有的圖像描述工作使用的更多是英文描述,而這次大賽加入了中文描述,更符合中文語言的使用習慣。該資料内容更加豐富,包括形容詞、成語等,相應的挑戰也會更大一些。為了了解圖像描述工作,建議去了解一下谷歌最近期的研究工作。
祝每一位參賽選手都能收獲滿意的成績,也祝願更多對AI感興趣的同學在“AI Challenger·全球AI挑戰賽”中提升自己。
王亮,研究員,博士生導師,電子電氣工程師學會(IEEE)進階會員,國際模式識别學會(IAPR)會士,國家傑出青年科學基金獲得者,國家青年科技獎獲得者。1997 年和2000 年分别獲得安徽大學工學學士和碩士學位,2004年獲中國科學院自動化研究所工學博士學位。2004 - 2010 年分别在英國帝國理工大學,澳洲莫納什大學,澳洲墨爾本大學及英國巴斯大學工作,曆任助理研究員,研究員和講師。2010 年入選中國科學院“百人計劃”,現為中科院自動化所模式識别國家重點實驗室副主任,研究員。
— 完 —
本文作者:李根
原文釋出時間: 2017-09-20