
作者 | 非主流
出品 | AI科技大學營
近日,由創新工場、搜狗、美團點評、美圖公司聯合主辦的“2018 AI Challenger 全球 AI 挑戰賽”正式開賽。
AI Challenger 号稱是“中國版 ImageNet”,今年已經是第二屆。本屆 AI Challenger 的主題為“用AI挑戰真實世界的問題”,整體獎金規模達到 300 餘萬人民币。
在 2017 年的首屆大賽中,AI Challenger 釋出了從百萬到千萬量級的 4 個資料集、6 個兼具學術前沿性和産業應用價值的競賽。在今年的 AI Challenger 大賽裡,資料集規模進一步擴大,新增 10 餘個高品質資料集。
▌5 個主賽道 + 5 個實驗賽道
今年比賽共有 5 個主賽道,5個實驗賽道。其中,5 個主賽道的資料集包括:業界最大規模觀點型問題閱讀了解資料集、業界最大規模細粒度使用者評論情感分析資料集、業界最大規模英中文本機器翻譯、業内首個多标簽短視訊分類資料集、以及世界龐大、最複雜的自動駕駛資料集。這 5 個主賽道的競賽分别是:
觀點型問題閱讀了解競賽:機器閱讀了解是讓機器讀懂人類語言、和人類更好交流互動的重要領域。此技術可廣泛應用于智能搜尋、智能客服、智能音箱、語音控制等場景,用AI實作基于文字、語音的人機智能互動。資料集包含 30 萬問題以及相關文章與答案的語料集合,為業界最大。
細粒度使用者評論情感分析競賽:自然語言情感分析是機器了解人類表達和意圖的重要領域。此技術可廣泛應用于零售、電商、餐飲、服務等使用者評價場景,用AI對使用者回報進行智能分析,監測使用者喜好、滿意度等。資料集包含 15 萬條餐飲使用者評論、6 大類 20 個細粒度要素标簽,為業界最大。
英中文本機器翻譯賽道競賽:機器翻譯正越來越成為人們跨越語言障礙的重要工具,應用于各種領域。資料集在 2017 年資料集的基礎上,總量達到 1300 萬句對,為業界最大;且其中具有上下文情景的中英雙語資料達到 300 萬句對,為機器翻譯的研究提供了更多探索空間。
短視訊實時分類賽道:近幾年發展極快的短視訊行業具有明顯的娛樂性和流行性,深受人們喜愛;基于短視訊機器分類的技術還可以廣泛用于視訊内容分析、編輯與生産,監控、安防等領域。資料集包含 20 萬條短視訊、涵蓋 63 類流行元素,為業内首個多标簽短視訊分類資料集。
無人駕駛視覺感覺賽道:自動駕駛技術即将改變我們的出行和生活方式。本次大賽的自動駕駛競賽采用了 UC Berkeley DeepDrive(BDD)2018 年最新釋出的 BDD 100K 資料集,這是全世界最龐大、最複雜的自動駕駛資料集,包含原始圖檔 1.2 億張、标注圖檔 10 萬張,涵蓋多樣天氣和晝夜光照條件。
除 5 個主賽道之外,AI Challenger 2018 還開放 5 個實驗賽道競賽和相應的資料集,包括基于北京氣象局3年氣象資料的天氣預報競賽,世界上首個農作物病害檢測競賽和資料集,國内首個眼底病變醫學圖像檢測競賽和資料集,以 3D 虛拟圖像訓練機器“認識”真實世界物品的競賽和資料集,讓機器借助輔助知識學習從未見過的新概念的首個國際性零樣本學習競賽和資料集。
▌競賽日程
AI Challenger 2018 的競賽主要分為三個階段。第一階段比賽從 2018 年 8 月 29 日至 11 月 4 日,參賽隊基于訓練集、驗證集、測試集 A,進行算法設計、模型訓練及評估,并送出預測結果,系統會按照評測名額實時回報分數,并更新榜單排名。個别競賽采取參賽隊送出代碼、docker 的形式進行比賽。期間進行雙周賽排名和評獎。
第二階段比賽從 2018 年 11 月 6 至 8 日,開放測試集 B;各競賽送出結果的時限不同。結果送出後即進入評分、排名、代碼驗證環節,個别比賽還将考察參賽隊的算法運作效率。參賽選手在測試集 B 上的預測結果表現,将作為進入決賽的排名依據。
第三階段于 12 月 18、19 日進行競賽的總決賽答辯。