雷鋒網(公衆号:雷鋒網) AI 研習社消息,由創新工場、搜狗、美團點評、美圖聯合主辦的 AI Challenger 2018 即将進入第二階段比賽。今年的大賽主題是「用 AI 挑戰真實世界的問題」,主辦方提供超過 300 萬人民币獎金。
8 月 29 日至 11 月 4 日是第一階段比賽,參賽隊基于訓練集、驗證集、測試集 A,進行算法設計、模型訓練及評估,并送出預測結果,并将于 2018 年 11 月 6 至 8 日開始第二階段比賽,開放測試集 B。競賽總決賽答辯和頒獎将于 12 月 18、19 日進行。(個别競賽時間不一緻,以大賽官網為準。)

今年比賽與去年一樣,分為主賽道和實驗賽道,目前,資料集也陸陸續續釋出,接下來,雷鋒網 AI 科技評論将會帶來這些資料集的介紹,大家可以挑選合适的資料集下載下傳,用于自己的模型訓練。
- 觀點型問題閱讀了解資料集
本資料集針對閱讀了解中較為複雜的,需要利用整篇文章中多個句子的資訊進行綜合才能得到正确答案的觀點型問題,構造了 30 萬組由問題、篇章、候選答案組成的訓練和測試集合。是目前為止全球難度最大的中文閱讀了解公開資料集,全球最大的觀點型機器閱讀了解公開資料集。
訓練集:25 萬
驗證集:3 萬
測試集A:1 萬
測試集B:1 萬
每條資料為<問題,篇章,候選答案> 三元組組成,每個問題對應一個篇章(500 字以内),以及包含正确答案的三個候選答案。
問題:真實使用者自然語言問題,從搜尋日志中随機選取并由機器初判後人工篩選
篇章:與問題對應的文本段,從問題相關的網頁中人工選取
候選答案:人工生成的答案,提供若幹(三個)選項,并标注正确答案
位址:https://challenger.ai/dataset/oqmrcd2018
- 細粒度使用者評論情感分析資料集
使用者評論對于深刻了解商家和使用者、挖掘使用者情感等方面有至關重要的價值,并且在網際網路行業有極其廣泛的應用,主要用于個性化推薦、智能搜尋、産品回報、業務安全等。為了促進情感分析技術的發展,主辦方提供了一個面向餐飲領域的細粒度使用者評論情感分析資料集,包含 33.5 萬條自大衆點評的真實公開使用者評論,依據其粒度不同建構雙層标注體系,共包含 6 大類 20 個細粒度要素。
訓練集:105,000 條
驗證集:15,000 條
測試集 A:15,000 條
測試集 B:200,000 條
資料集中的評價對象按照粒度不同劃分為兩個層次,層次一為粗粒度的評價對象,例如評論文本中涉及的服務、位置等要素;層次二為細粒度的情感對象,例如“服務”屬性中的“服務人員态度”、“排隊等候時間”等細粒度要素。每個細粒度要素的情感傾向有四種狀态:正向、中性、負向、未提及。使用[1,0,-1,-2]四個值對情感傾向進行描述。
位址:https://challenger.ai/dataset/fsaouord2018
- 英中翻譯資料集
随着深度學習技術的不斷發展,近年來機器翻譯研究研究受到了越來越多的關注。主辦方提供了一個英中機器翻譯資料集,包含了 1000 萬英中對照的句子對作為資料集合。資料主要來源于英語學習網站和電影字幕,領域為口語領域。另外,還提供 300 萬帶有上下文情景的英中雙語口語資料。所有雙語句對經過人工檢查,資料集從規模、相關度、品質上都有保障。
訓練集:1300 萬
驗證集:8000
測試集 A:8000
測試集 B:8000
位址:https://challenger.ai/dataset/ectd2018
- 多标簽短視訊分類資料集
資料集共包含 20 萬條短視訊,涵蓋舞蹈、健身、唱歌等 63 類流行元素,分為訓練集(12 萬)、驗證集(3 萬)、測試集 A(3 萬)、測試集 B(3 萬)。大部分視訊的長度為5-15秒。
本資料集采用多标簽分類體系,标簽資訊包含視訊主體、場景、動作等多個次元,标注資訊将盡量包含視訊中展現的所有元素,每條視訊有1-3個标簽。
相較于傳統視訊資料集來說,本資料集更具特色。本資料集視訊采集裝置多為手機且比例多為豎屏;資料集中的很多視訊使用了短視訊特效,并包含更多視訊快進、剪輯等操作;從視訊内容上講,本資料集包含了更多人物中心化的自拍短視訊内容。
位址:https://challenger.ai/dataset/mlsvd2018
- 天氣預報資料集
天氣預報資料集由北京市 10 個氣象站點,共 3 年多的逐小時曆史「觀測」和「睿圖」資料組成。這是中國氣象局北京城市氣象研究所公開釋出的氣象資料集,其時間跨度長且密度高,包含氣象要素的實況和預報兩部分,對提高天氣預報準确性具有重要作用。
資料連續性較好,缺失樣本(-9999.)很少,并通過 NetCDF4 格式共同存儲于單個 nc 檔案中。「觀測」集逐時記錄目前氣象觀測站點的 9 個地面氣象要素,通過氣象儀器實時監測得到;「睿圖」集包含地面和特征氣壓層共計 29 個氣象要素,由數值預報模式在超級計算機上運算産生。
訓練集:1188 天樣本
驗證集:89 天樣本
測試 A 集:包含兩個資料集,分别為 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日,分别有 27 天和 48 天樣本
測試 B 集:包含 7 個資料集,全部以 2018 年 8 月 29 日為起始日期,以 10 月 28 日至 11 月 3 日分别為結束日期,分别有 61–67 天樣本
位址:https://challenger.ai/dataset/wfd2018
- 農作物病害資料集
标注圖檔 50,000 張、包含 10 種植物的 27 種病害。
本資料集合由上海新客科技和創新工場聯合打造。資料集有 61 個分類(按「物種-病害-程度」分),10 個物種,27 種病害(其中 24 個病害有分一般和嚴重兩種程度),10 個健康分類,47393 張圖檔。每張圖包含一片農作物的葉子,葉子占據圖檔主要位置。資料集随機分為訓練(70%)、驗證(10%)、測試 A(10%)與測試 B(10%)四個子資料集。其中,訓練集有 32,739 張圖檔,驗證集有 4,982 張圖檔,測試集 A 有 4,959 張圖檔,測試集 B 有 4,957 張圖檔。
位址:https://challenger.ai/dataset/pdd2018
- 眼底病變資料集
視網膜水腫是一種常見的眼部病理改變,會導緻不同程度的視力下降,進而影響正常的生活。盡早的發現水腫症狀,能夠對疾病的診斷和治療起到重要的作用。如今臨床上使用 OCT(光學相幹斷層成像)輔助醫生對視網膜水腫進行判斷。
主辦方提供了眼部 OCT 樣本的圖像資料集,由專業眼科醫生分别對三種類型的水腫進行标注,資料量達到 100 個 OCT 體資料,每個體資料 128 張圖檔。這是國内首個眼底病變醫學圖像檢測競賽,使用了目前最大的眼底病變資料集,是一次 AI 與醫學技術的結合
- 訓練資料包括 cube OCT 資料和水腫标記資料,每個 cube 含有 128 張圖檔。
- 驗證資料除了 cube OCT 資料和水腫标記資料,還包括送出标準即水腫類型标記和體素标記。
- 水腫類型标記為 [128,3] 的 01 矩陣,分别标記 128 張圖檔中對應水腫類型。
- 體素标記為 [128,1024,512] 矩陣,0、1、2、3 分别代表 Background、REA、SRF、PED。
- 測試資料為 cube OCT 資料。
位址:https://challenger.ai/dataset/fld2018
- 圖像屬性資料集
本資料集由創新工場、北京大學王亦洲教授和複旦大學付彥偉教授聯合構造。屬性标注對于實作圖像了解、知識遷移具有重要意義。
本資料集共 78,017 張圖檔,可劃分為 5 個超類(super-class),分别是動物(Animals)、水果(Fruits)、交通工具(Vehicles)、電子産品(Electronics)、發型(Hairstyles)。其中,動物和水果屬于自然産物,交通工具和電子産品屬于人造物,發型屬于抽象概念。每個超類分别包含 A: 50, F: 50, V: 50, E: 50, H: 30 個類别,總計 230 個類别。對于每個超類(super-class),分别設計了 A: 123, F: 58, V: 81, E: 75, H: 22 個屬性,共 359 個屬性。每張圖檔隻包含一個前景物體,标注了标簽和物體包圍框。對于每個類别,随機挑選了 20 張圖檔進行屬性标注。
- 訓練集(seen classes):80% 類别
- 測試集(unseen classes):20% 類别
訓練集所有圖檔均标注了标簽和包圍框。對于部分圖檔(20 張/類),标注了二值屬性,屬性值為 0 或 1,表示屬性「存在」或「不存在」。
位址:https://challenger.ai/dataset/lad2018
更多資訊,歡迎參見比賽官網:http://challenger.ai