天天看點

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

~~因為不太會使用OpenCV、matlab工具,是以在找一些比較簡單的工具。

.

.

一、NLP标注工具BRAT

BRAT是一個基于web的文本标注工具,主要用于對文本的結構化标注,用BRAT生成的标注結果能夠把無結構化的原始文本結構化,供計算機處理。利用該工具可以友善的獲得各項NLP任務需要的标注語料。以下是利用該工具進行命名實體識别任務的标注例子。

WeTest輿情團隊在使用:http://wetest.qq.com/bee/

使用案例:http://blog.csdn.net/owengbs/article/details/49780225

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫
NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

.

二、VS标注工具——LabelImg

1、PyQt

用 PyQt 寫的, 很輕量, Linux/macOS/Windows 全平台均可運作.

工具github網址:https://github.com/tzutalin/labelImg

知乎介紹網址:有圖像标注工具推薦或者分享嗎?

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫
NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

2、Vatic

參考:人工智能AI工具-視訊标注工具vatic的搭建和使用

視訊标注工具vatic,Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視訊,支援自動抽取成粒度合适的标注任務并在流程上支援接入亞馬遜的衆包平台Mechanical Turk。

網址:http://web.mit.edu/vondrick/vatic/

Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視訊,支援自動抽取成粒度合适的标注任務并在流程上支援接入亞馬遜的衆包平台Mechanical Turk。除此之外,其還有很多實用的特性:

1.簡潔使用的GUI界面,支援多種快捷鍵操作

2.基于opencv的tracking,這樣就可以抽樣的标注,減少工作量

具體使用時,可以設定要标注的物體label,比如:水果,人,車,等等。然後指派任務給到衆包平台(也可是自己的資料工程師)。現階段支援的标注樣式是框(box)。一個示例,下圖示注了NBA直播比賽中的運動員

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

3、BBox-Label-Tool

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

4、圖像标注VS2013項目

有人自己寫了一個版本:

打框的代碼(c++)我封裝成了dll,下載下傳位址:圖像标注VS2013項目 (我的環境是win7vs2013旗艦版,win8 win10好像不能運作)

别人封裝的opencv動态庫,現在修改為opencv2.4.10,64位,vs2013,按網上教程配置好opencv,資源位址:

圖像标注EXE-2016-10-18

上面的代碼好像忘寫操作說明了,這裡寫一下:

(1)圖檔顯示出來後,輸入法切換到英文;

(2)在目标的左上角按下滑鼠左鍵,拉一個包圍框到目标右下角,然後鍵盤輸入标簽(一個字元)

(3)繼續(2)操作,直到框完該張圖檔上的目标;

(4)按n進入下一張,esc退出。

注意:标簽隻能輸入一個字元,你可以在生成的txt檔案中替換成你實際的标簽。

.

5、Yolo_mark

YOLO V2 準備資料的圖形界面目标邊界框标注工具 AlexeyAB/Yolo_mark

.

6、視訊标注工具

CDVA(compact descriptor for video analysis),主要是基于CDVS中的緊湊視覺描述子來做視訊分析,之前是緊湊視覺描述子主要應用在圖像檢索領域。需要制作新的資料集,對視訊幀進行标注,是以根據網上一個部落客的标注工具進行了一定的修改,實作的功能是在每一幀中将需要标注的區域用滑鼠選取4個點,順序是順時針。因為四邊形的範圍更廣,之前的一些人直接标注了矩形,但是在一些仿射變換中,往往矩形的定位效果不好,矩形定位應該比較适合于人臉定位和行人定位之中。

http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

.

.

三、Amazon’s Mechanical Turk 離線工作架構

一個開源的Amazon’s Mechanical Turk 離線工作架構,基于Django搭建的

github網址:https://github.com/hltcoe/turkle

.

.

四、用已訓練來進行圖像标注

《使用深度學習和Fisher向量進行圖檔标注》(paper)

主講人Lior Wolf,特拉維夫大學的教員在一次倫敦深度學習會議上的一次公開演講:

為了實作圖像标注和搜尋,他們最開始用CNNs将圖檔轉換成向量,用Word2Vec将詞語轉換成向量。大部分研究工作都集中于如何将詞語向量結合到語句向量之中,由此産生了基于Fisher向量的模型。一旦他們得到了語句向量,他們使用典型相關分析(CCA)将圖檔表示和語句表示投射到同一空間裡,使圖像和句子可以比對,找到最近鄰的部分。

參考自部落格:2015倫敦深度學習峰會筆記:來自DeepMind、Clarifai等大神的分享

.

五、snape

人工資料集生成工具,來看一段有趣的獨白:

Snape is primarily used for creating complex datasets that challenge

students and teach defense against the dark arts of machine learning.

專門是針對機器學習領域自動生成資料集。

安裝:

Via Github

git clone https://github.com/mbernico/snape.git
cd snape
python setup.py install           
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

來自:https://github.com/mbernico/snape

.

.

延伸一 國内一些衆包的資料标注服務商

1、敲寶網——衆包

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

裡面确實有一些圖像分類、圖像标注的任務。但是也不是很多。

2、小魚兒網

我的技能時間交易平台小魚兒網成立最晚,但卻走了最具網際網路思維的盈利之路,增值服務盈利,平台在整個過程交易中不收取費用,提供大資料分析,篩選服務者等增值服務,主動權完全交給使用者,網際網路時代,流量為王,使用者為王,小魚兒網的盈利模式無疑向這個宗旨貼近的,長期來看,這種盈利模式或許最聰明。

挺大的,但是沒有看到有圖像的任務。

3、威客-創意,一品威客網

中國最專業威客網站一品威客網借鑒了豬八戒盈利模式的短闆,對使用者劃分普通使用者和vip使用者,對普通使用者實行免費,對VIP使用者收取會員費,在網際網路時代,有效的籠絡住了大批使用者的心,不失為一種好的盈利模式。

國内最大的衆包了吧,但是圖像辨別項目很少,商家也幾乎沒有看到..

4、資料堂

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

确确實實有資料标注,而且有文本、語音、圖檔采集項目。

5、百度衆包

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

裡面有很多任務與案例,文本、語音、圖檔都有。

6、阿裡衆包

圖像采集任務?

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

7、荟萃公司——荟萃-荟集人力之萃

http://huicui.me/?from=singlemessage&isappinstalled=0

圖檔識别

可智能識别圖檔内容、屬性、分類、是否涉黃等,支援單圖多圖多種形式。

語音轉化

可替您将文字轉成語音、文字轉成方言(真人語音),識别語音、歌曲等。

視訊識别

可以為您完成視訊内容收集,字幕識别,視訊内容鑒定等内容。

視訊創作

為您拍攝或收集某一主題的視訊,以小視訊形式上傳。

網頁展示任務

可自定義任意網頁在使用者端展示時間,如新品推廣、廣告觀看等類型。

自定義任務

搶票?秒殺?聯系上下文?隻要你腦洞夠大,任意H5網頁類任務皆可接入。

8、地平線公司

http://www.horizon-robotics.com/index_cn.html

地平線具有世界領先的深度學習和決策推理算法開發能力,将算法內建在高性能、低功耗、低成本的嵌入式人工智能處理器及軟硬體平台上。地平線目前提供基于ARM/FPGA等處理器的解決方案,同時開發自主設計研發的Brain Processing Unit (BPU) — 一種創新的嵌入式人工智能處理器架構IP,提供裝置端上完整開放的嵌入式人工智能解決方案。

公司核心業務面向智能駕駛和智能生活等應用場景,目前已成功推出了面向智能駕駛應用的“雨果”平台及面向智能生活的“安徒生”平台,與國内國際頂尖的汽車Tier 1、OEMs及家電廠商展開了深入的合作,并在成立僅一年多的時間内成功推出量産産品。地平線也正積極搭建開放的嵌入式人工智能産業生态,與産業上下遊共同合作發展。

2017年1月6日,地平線與英特爾于CES聯合釋出了基于單目攝像頭和FPGA的最新ADAS系統,可實作在高速公路和市區道路場景下,同時對行人、車輛、車道線和可行駛區域的實時檢測和識别。2016年8月1日,地平線與美的聯合釋出了“智能王”櫃機空調,擁有手勢控制、智能送風、智能安防三大新功能。

.

.

六、圖像資料集

一部分來源:深度學習視覺領域常用資料集彙總

1、LSUN:用于場景了解和多任務輔助(房間布局估計,顯着性預測等)。

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

位址:http://lsun.cs.princeton.edu/2016/

2、行人檢測DataSets

(1).基于背景模組化:利用背景模組化方法,提取出前景運動的目标,在目标區域内進行特征提取,然後利用分類器進行分類,判斷是否包含行人;

(2).基于統計學習的方法:這也是目前行人檢測最常用的方法,根據大量的樣本建構行人檢測分類器。提取的特征主要有目标的灰階、邊緣、紋理、顔色、梯度直方圖等資訊。分類器主要包括神經網絡、SVM、adaboost以及現在被計算機視覺視為寵兒的深度學習。

Caltech行人資料庫:http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

該資料庫是目前規模較大的行人資料庫,采用車載攝像頭拍攝,約10個小時左右,視訊的分辨率為640×480,30幀/秒。标注了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關系及其遮擋的情況進行标注。資料集分為set00~set10,其中set00~set05為訓練集,set06~set10為測試集(标注資訊尚未公開)。性能評估方法有以下三種:(1)用外部資料進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10做測試。由于測試集的标注資訊沒有公開,需要送出給Pitor Dollar。結果送出方法為每30幀做一個測試,将結果儲存在txt文檔中(檔案的命名方式為I00029.txt I00059.txt ……),每個txt檔案中的每行表示檢測到一個行人,格式為“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文檔為空。該資料庫還提供了相應的Matlab工具包,包括視訊标注資訊的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

其他資料集可參考:行人檢測:http://www.52ml.net/17004.html

3、人臉資料庫UMDFaces等

(1)UMDFaces

http://www.umdfaces.io/

不僅有人臉的目标檢測資料,還有關鍵點的資料,非常适合做訓練。

就是比較大,總共有三個檔案,一共8000+個類别,總共36W張人臉圖檔,全都是經過标注的樣本,标注資訊儲存在csv檔案中,除了人臉的box,還有人臉特征點的方位資訊,強力推薦!

(2)人臉識别資料庫

1. 李子青組的 CASIA-WebFace(50萬,1萬個人). 需申請.Center for Biometrics and Security Research

2. 華盛頓大學百萬人臉MegaFace資料集. 郵件申請, 是一個60G的壓縮檔案. MegaFace

3. 南洋理工 WLFDB. (70萬+,6,025). 需申請. WLFDB : Weakly Labeled Faces Database

4. 微軟的MSRA-CFW ( 202792 張, 1583人). 可以直接通過OneDrive下載下傳.MSRA-CFW: Data Set of Celebrity Faces on the Web

5. 湯曉歐實驗室的CelebA(20萬+), 标注資訊豐富. 現在可以直接從百度網盤下載下傳 Large-scale CelebFaces Attributes (CelebA) Dataset

6. FaceScrub. 提供圖檔下載下傳連結(100,100張,530人). vintage – resources

作者:疾如風

連結:https://www.zhihu.com/question/33505655/answer/67492825

來源:知乎

4、搜狗實驗室資料集:

http://www.sogou.com/labs/dl/p.html

網際網路圖檔庫來自sogou圖檔搜尋所索引的部分資料。其中收集了包括人物、動物、建築、機械、風景、運動等類别,總數高達2,836,535張圖檔。對于每張圖檔,資料集中給出了圖檔的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G

格式說明:
共包括三個檔案:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存儲圖檔的相關中繼資料;Original_Pic中存儲圖檔的原圖;Evaluation_Data是識圖搜尋結果的人工标注集合。
Meta_Data檔案包含所有圖檔的相關中繼資料,格式如下:
<PIC>
<PIC_URL>圖檔在網際網路中的URL位址</PIC_URL>
<PAGE_URL>圖檔所在網頁的URL位址</PAGE_URL>
<ALT_TEXT>圖檔的替換文字</ALT_TEXT>
<ANCHOR_TEXT>以圖檔為目标的超連結的顯示文本</ANCHOR_TEXT>
<SUR_TEXT1>頁面中提取的圖檔上方的文本</SUR_TEXT1>
<SUR_TEXT2>頁面中提取的圖檔下方的文本</SUR_TEXT2>
<PAGE_TITLE>圖檔所在網頁的标題</PAGE_TITLE>
<CONTENT_TITLE>圖檔所在網頁的正文标題</ CONTENT_TITLE>
<WIDTH>圖檔的寬度</WIDTH>
<HEIGHT>圖檔的高度</HEIGHT>
<ORIGINAL_PIC_NAME>圖檔在Original_Pic下的檔案名</ ORIGINAL_PIC_NAME>
</PIC>

圖檔原圖存儲在Original_Pic檔案中,每個圖檔二進制資料儲存成一個單獨檔案,檔案名在Meta_Data的元資訊中指明。

Evaluation_Data檔案包含所有圖檔的相關中繼資料,格式如下:
<PIC>
<QUERY_URL>查詢圖檔在網際網路中的URL位址</QUERY_URL>
<RESULT_URL>搜尋結果的 PIC_URL,多個分号隔開</RESULT_URL>
</PIC>           
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

5、Imagenet資料集

業界标杆

Imagenet資料集有1400多萬幅圖檔,涵蓋2萬多個類别;其中有超過百萬的圖檔有明确的類别标注和圖像中物體位置的标注,具體資訊如下:

1)Total number of non-empty synsets: 21841

2)Total number of images: 14,197,122

3)Number of images with bounding box annotations: 1,034,908

4)Number of synsets with SIFT features: 1000

5)Number of images with SIFT features: 1.2 million

Imagenet資料集是目前深度學習圖像領域應用得非常多的一個領域,關于圖像分類、定位、檢測等研究工作大多基于此資料集展開。Imagenet資料集文檔詳細,有專門的團隊維護,使用非常友善,在計算機視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習圖像領域算法性能檢驗的“标準”資料集。

與Imagenet資料集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,以往一般是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬全部項目的冠軍。

Imagenet資料集是一個非常優秀的資料集,但是标注難免會有錯誤,幾乎每年都會對錯誤的資料進行修正或是删除,建議下載下傳最新資料集并關注資料集更新。

資料集大小:~1TB(ILSVRC2016比賽全部資料)

下載下傳位址:

http://www.image-net.org/about-stats

6、COCO資料集

COCO資料集由微軟贊助,其對于圖像的标注資訊不僅有類别、位置資訊,還有對圖像的語義文本描述,COCO資料集的開源使得近兩三年來圖像分割語義了解取得了巨大的進展,也幾乎成為了圖像語義了解算法性能評價的“标準”資料集。

Google開源的開源了圖說生成模型show and tell就是在此資料集上測試的,想玩的可以下下來試試哈。

資料集大小:~40GB

下載下傳位址:http://mscoco.org/

COCO(Common Objects in Context)是一個新的圖像識别、分割和圖像語義資料集,它有如下特點:

1)Object segmentation

2)Recognition in Context

3)Multiple objects per image

4)More than 300,000 images

5)More than 2 Million instances

6)80 object categories

7)5 captions per image

8)Keypoints on 100,000 people

7、PASCAL VOC

PASCAL VOC挑戰賽是視覺對象的分類識别和檢測的一個基準測試,提供了檢測算法和學習性能的标準圖像注釋資料集和标準的評估系統。PASCAL VOC圖檔集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、機車、火車);室内(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其資料集圖像品質好,标注完備,非常适合用來測試算法性能。

資料集大小:~2GB

下載下傳位址:

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

8、Open Image

過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述圖檔,對共享的圖檔創造自然語言回應。其中大部分的進展都可歸因于 ImageNet 、COCO這樣的資料集的公開使用。谷歌作為一家偉大的公司,自然也要做出些表示,于是乎就有了Open Image。

Open Image是一個包含~900萬張圖像URL的資料集,裡面的圖檔通過标簽注釋被分為6000多類。該資料集中的标簽要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網絡。

谷歌出品,必屬精品!唯一不足的可能就是它隻是提供圖檔URL,使用起來可能不如直接提供圖檔友善。

此資料集,筆者也未使用過,不過google出的東西品質應該還是有保障的。

資料集大小:~1.5GB(不包括圖檔)

下載下傳位址:

https://github.com/openimages/dataset

9、Youtube-8M

Youtube-8M為谷歌開源的視訊資料集,視訊來自youtube,共計8百萬個視訊,總時長50萬小時,4800類。為了保證标簽視訊資料庫的穩定性和品質,谷歌隻采用浏覽量超過1000的公共視訊資源。為了讓受計算機資源所限的研究者和學生也可以用上這一資料庫,谷歌對視訊進行了預處理,并提取了幀級别的特征,提取的特征被壓縮到可以放到一個硬碟中(小于1.5T)。

此資料集的下載下傳提供下載下傳腳本,由于國内網絡的特殊原因,下載下傳此資料經常斷掉,不過還好下載下傳腳本有續傳功能,過一會兒重新連接配接就能再連上。可以寫一個腳本檢測到下載下傳中斷後就sleep一段時間然後再重新請求下載下傳,這樣就不用一直守着了。(截至發文,斷斷續續的下載下傳,筆者表示還沒下完呢……)

資料集大小:~1.5TB

下載下傳位址:https://research.google.com/youtube8m/

10、深度學習資料集收集網站

http://deeplearning.net/datasets/**

收集大量的各深度學習相關的資料集,但并不是所有開源的資料集都能在上面找到相關資訊。

11、CoPhIR

http://cophir.isti.cnr.it/whatis.html

雅虎釋出的超大Flickr資料集,包含1億多張圖檔。

12、MirFlickr1M

http://press.liacs.nl/mirflickr/

Flickr資料集中挑選出的100萬圖像集。

13、SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一個子集,包含100萬的圖像集。

14、NUS-WIDE

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27萬的圖像集。

15、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

包含100萬的圖像,23000視訊;微軟亞洲研究院出品,品質應該有保障。

.

16、多物體+關系資料庫:HICO & HICO-DET

HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

17、QA型圖像資料庫:CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here.

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

18、Driver Speed Dataset

A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

七、“稀有”實驗室

1、生物識别與安全技術研究中心

CASIA行為分析資料庫共有1446條視訊資料,是由室外環境下分布在三個不同視角的錄影機拍攝而成,為行為分析提供實驗資料。資料分為單人行為和多人互動行為,單人行為包括走、跑、彎腰走、跳、下蹲、暈倒、徘徊和砸車,每類行為有24人參與拍攝,每人4次左右。多人互動行為有搶劫、打鬥、尾随、趕上、碰頭、會合和超越,每兩人1次或2次。
           

來源:http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

該實驗室擁有的資料庫:虹膜資料庫,步态資料庫,人臉資料庫,指紋資料庫,掌紋資料庫,筆迹資料庫,行為分析資料庫

該實驗室研究成果:

近紅外的人臉身份識别技術和系統, 中遠距離人臉識别系統, 人臉檢測與跟蹤, 多目标遮擋跟蹤, 目标檢測、跟蹤與分類, 異常動作檢測, 人異常行為檢測與報警, 交通車輛計數示範, 主從錄影機跟蹤,

多錄影機資料融合(全景監控地圖), 交通擁堵檢測與報警, 車輛異常行為檢測與報警, 夜間跟蹤示範, 動态場景下的主動跟蹤, 視訊圖像序列拼接, 人數統計, 視訊濃縮

2、中文語言資源聯盟

中文語言資源聯盟,英文譯名Chinese Linguistic Data Consortium,縮寫為CLDC。 CLDC是由中國中文資訊學會語言資源建設和管理工作委員會發起,由中文語言(包括文本、語音、文字等)資源建設和管理領域的科技工作者自願組成的學術性、公益性、非盈利性的社會團體,其宗旨是團結中文語言資源建設領域的廣大科技工作者,建成代表中文資訊處理國際水準的、通用的中文語言語音資源庫。

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

當然,裡面的内容都是收費的,而且不便宜,不過畢竟是好東西~

3、中科院自動化研究所 模式識别國家重點實驗室

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

4、北郵模式識别實驗室

http://www.pris.net.cn/

圖像識别方向的技術有:

高清車牌及車辨別别技術、不良圖檔過濾、圖檔檢索技術

5、中國科學技術大學,圖像處理實驗室

http://image.ustc.edu.cn/project.html

國家自然基金重點項目:高分辨率SAR圖像目标認知模型及高效算法

國家自然科學基金項目:星上原始超光譜圖像稀疏編碼壓縮技術研究

973課題:稀疏微波成像資料壓縮及特征了解

果然有錢!!

6、國内高校開源鏡像站友情連結

清華大學開源鏡像站

http://mirror.tuna.tsinghua.edu.cn/

中國科學技術大學開源鏡像站

http://mirrors.ustc.edu.cn

北京交通大學開源鏡像站

http://mirror.bjtu.edu.cn/cn/

蘭州大學開源鏡像站

http://mirror.lzu.edu.cn/

廈門大學開源鏡像站

http://mirrors.xmu.edu.cn/

上海交通大學開源鏡像站

http://ftp.sjtu.edu.cn/

東軟資訊學院開源鏡像站

http://mirrors.neusoft.edu.cn/

7、網頁版呈現各類模型的實作

https://github.com/hwalsuklee/awesome-deep-vision-web-demo

NLP+VS︱深度學習資料集标注工具、圖像語料資料庫、實驗室搜尋ing...一、NLP标注工具BRAT二、VS标注工具——LabelImg三、Amazon’s Mechanical Turk 離線工作架構四、用已訓練來進行圖像标注五、snape延伸一 國内一些衆包的資料标注服務商六、圖像資料集七、“稀有”實驗室八、中文文本語料庫

.

八、中文文本語料庫

可參考:【語料庫】語料庫資源彙總

NLP常用資訊資源:https://github.com/memect/hao/blob/master/awesome/nlp.md

FudanNLP (FNLP)(FNLP主要是為中文自然語言處理而開發的工具包,也包含為實作這些任務的機器學習算法和資料集。 ):https://github.com/FudanNLP/fnlp

(一) 國家語委

1國家語委現代漢語語料庫http://www.cncorpus.org/

現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開後的線上檢索速度更快,功能更強,同時提供檢索結果下載下傳。現代漢語語料庫線上提供免費檢索的語料約2000萬字,為分詞和詞性标注語料。

2古代漢語語料庫http://www.cncorpus.org/login.aspx

網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載下傳。同時,還提供了分詞、詞性标注軟體、詞頻統計、字頻統計軟體,基于國家語委語料庫的字頻詞頻統計結果和釋出的詞表等,以供學習研究語言文字的老師同學使用。

(二) 北京大學計算語言學研究所

1《人民日報》标注語料庫http://www.icl.pku.edu.cn/icl_res/

《人民日報》标注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞資訊中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在網際網路上公布,供自由下載下傳。

(三) 北京語言大學

漢語國際教育技術研發中心:HSK動态作文語料庫http://202.112.195.192:8060/hsk/login.asp

語言研究所:北京口語語料查詢系統(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

還有很多,可參考:【語料庫】語料庫資源彙總

百度開源的中文問答語料:

WebQA: A Chinese Open-Domain Factoid Question Answering Dataset

釋出的檔案有267MB,但對于我們來說,裡邊的東西貌似有點過多了,因為裡邊包含了分詞結果、序列标注結果、詞向量結果,貌似是内部研究小組直接用來做的實驗。對于我們來說,顯然隻需要純粹的問答語料就行了。

相關介紹可見: 百度的中文問答資料集WebQA

微網誌終結者爬蟲

這個項目緻力于對抗微網誌的反爬蟲機制,集合衆人的力量把微網誌成千上萬的微網誌評論語料爬取下來并制作成一個開源的高品質中文對話語料,推動中文對話系統的研發。

github:https://github.com/jinfagang/weibo_terminater

繼續閱讀