天天看點

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

找靠譜資料集的痛苦資料科學領域的寶寶們都懂。文摘菌今天強力推薦一個很棒的資料平台Figure Eight。

先上網站連結:www.figure-eight.com

相比其他資料平台,這個平台的一大特點是,用于标注資料集的模闆都可以複制,而且能夠在Figure Eight平台擴充其應用。每個資料集裡包含了原始資料、工作設計、教程、說明等等。

以下是幾個被文摘菌選中的優質資料集:

谷歌資料集Open Images Dataset v4(包圍盒)

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

Open Images是一個包含九百萬圖檔的資料集,使用了幾千類圖像級标簽和包圍盒進行标注。Open Images的第4版側重于對象檢測,用包圍盒标注了170萬圖像,這些标注覆寫了按層次分組的600類對象。

這份資料集是2018年歐洲計算機視覺大會上舉辦的公開圖像挑戰賽的特征集。

資料集的更多資訊

https://storage.googleapis.com/openimages/web/challenge.html

2018歐洲計算機視覺大會

https://storage.googleapis.com/openimages/web/index.html

資料集連結

https://www.figure-eight.com/dataset/open-images-annotated-with-bounding-boxes/

核分割的醫學圖像資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

醫學專家标注的來自幾種不同器官的21000個細胞核

該資料集包含标注過的蘇木精-伊紅染色(H&E)圖像,這種圖像是組織病理學中最常見的幾類之一。這些圖像裁剪自30個全切片成像系統中的數字化組織樣本,這些組織樣本來自癌症和惡性良性腫瘤基因圖譜中所提到的7個器官。

這些圖像從18所不同的醫院采集,是以不同實驗室中染色實驗操作的差異,也額外引入了影響成像的因素。器官中組織最密集的部分裁剪出了大小為1000 x 1000像素的圖檔。為了進一步保障細胞核表征的豐富性,這個資料庫囊括了乳腺、肝髒、腎髒、前列腺、膀胱、結腸和胃等的良性和病變樣本。

數字顯微組織的核分割圖像可為計算病理學中的提取核形态測量和其他分析提取出高品質的特征。諸如密度、細胞核質比、大小、形狀特征、多形性等核形态測量特征和外觀特征,不僅有助于評估惡性良性腫瘤分級,也可用于治療效果預測。

此資料集整合了30張裁剪後的圖像,包含了超過21000個細胞核。并且每張圖檔經由醫學專家标注和驗證,可供研究人員開發和測試更普适的核分割技術,以應用于多種類型細胞核。

https://www.figure-eight.com/dataset/nucleus-segmentation-in-histopathological-images/

筆迹識别資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

OCR(光學字元識别)的40萬手寫姓名的抄本

這個資料集有40多萬個樣本之多,基本上是從幫助世界各地弱勢兒童的慈善項目中收集到的。

OCR(光學字元識别)利用圖像處理技術,将掃描檔案上的字元轉換成數字資訊。這項技術應用于機器列印的字型時通常表現良好,但對于辨認風格迥異的手寫字型則稍顯無力。

這個資料集共包括206,799個名和207,024個姓,分為了331059個訓練集、41382個測試集和41382個驗證集。

此外,這個資料集提供了所有Figure Eight平台上通過人機閉環标注系統(human-in-the-loop annotation)建立的圖像标簽,以友善人們用自己的資料擴充資料集。

https://www.figure-eight.com/dataset/handwritten-name-transcription-from-an-image/

舊金山停車标志探測資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

從舊金山街景圖像中探測并解析停車标志

該資料集收集了舊金山不同街區形狀、顔色、方向、大小各異的停車标志圖像,并通過Figure Eight平台進行了标注,實作對停車标志探測模型的訓練。這些标注過的停車标志可以幫助訓練OCR模型,進而使模型識别出停車、自動駕駛汽車相關的标志,而忽略商店、廣告牌和其他幹擾性的标志。

停車标志探測模型結合了計算機視覺、自然語言處理和空間推理技術,是Figure Eight正在運作的的項目之一。我們的目标是利用深度學習算法深入研究,以建立更精準的模型,并應用于其他城市,尤其是停車标志易與人造物體混淆的密集區域。

此項目的更多資訊

https://ascelibrary.org/doi/abs/10.1061/9780784480823.037?cookieSet=1

https://www.figure-eight.com/dataset/parking-sign-detection/

提取藥物資訊資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

PubMed文章中醫學術語間關系的資料集,用于關系提取和相關自然語言處理任務。

該資料集包括從PubMed文章摘要中選取的3984個醫學相關語句,并标注了不相關術語間的聯系。其中“治療”關系和“因果”關系是主要關注點,共有1043個句子含有治療關系,1787個句子含有因果關系。

人機閉環标注系統進行向标注者提供兩個術語(例如“路易體癡呆(LBD)”和“真性視幻覺”),而标注者則按照要求标注兩個術語間的關系(對于上述例子應為“路易體癡呆導緻真性視幻覺”)。

https://www.figure-eight.com/dataset/medical-sentence-summary-and-relation-extraction/

醫療相關談話語音、轉換文本與意圖的資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

将8.5小時的語音與常見症狀的文本配對

這份8.5小時的語音裡包含了數以千計的常見症狀,比如“膝蓋疼痛”、“頭疼”等等。每一條症狀語音都由真實的人,基于特定症狀提供。這些音頻片段可用于教育訓練醫療領域的診斷助理。

Figure Eight通過多作業工作流建立了這個資料集。第一位參與者寫下文字短語來描述設定的症狀,比如對于“頭疼”,他可能會寫下“我想治一下偏頭痛”,随後的工作則是為已接收的字元串捕捉音頻。

注:這個資料集既包括音頻,也包括了相應的文本。

https://www.figure-eight.com/dataset/audio-recording-and-transcription-for-medical-scenarios/

斯瓦西裡語翻譯健康主題資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

将災害和與威脅相關的資料由英語翻譯成斯瓦西裡語

這項工作的輸入資料庫是來自紅十字會的災難和與威脅相關的資訊,包括疾病、受傷情況、自然災害等項目。對于每一個類别,這個資料集都提供了特定情況下行事的指導,以及如何利用可用工具,進而在可能威脅生命的情況中生存下來的指導。

這份資料還包括了每個文本字元串的斯瓦希裡語翻譯。Figure Eight的工作旨在糾正斯瓦西裡語翻譯中的錯誤(如果需要的話),并為需要譯為斯瓦西裡短語的人提供所收集到的語音片段。此外,貢獻者需要根據給定主題的文本片段,将短語分為三類:對特定情況有幫助的物品、提升存活幾率的行為和其他。

https://www.figure-eight.com/dataset/english-to-swahili-audio-recording-and-transcription/

多語言災難響應消息資料集

資源 | 從醫療語音到災難響應,這八大優質資料集快抱走

一組于災難響應相關的資訊,涵蓋了多種語言,适用于文本分類、相關的自然語言處理任務。

該資料集将會包含30類與災難響應相關的資訊,這些類别包括:發出資訊者的意圖(例如:尋求援助、提供援助),援助主題(例如:水、食物、藥品),運輸或物流相關類,和某個人是否在傳遞一手資訊、是不是直接證人。這些類别可以作為任一現存語言的預測标簽。

不同類别反映了人員群組織在災難發生後需要的不同類的的資訊。災難過後,由于不同組織會對不同方面作出回應,沒有統一的标準評判哪些資訊是重要的。比如,某個組織可能專注于飲用水情況,而另一個組織則側重于確定道路暢通。不同資訊的優先級也常随時間而變化。是以,不同的子類可以映射到不同的需求和回應,這些子類所屬的廣泛的大類則用于标記資料集。

資料主要分為三種類型:直接發送給救災組織的消息,社交媒體上流傳的消息,以及災難相關文章的标題。這些資料裡有大約20%與災難無關,但與其他相關資料來自于相同的文章和消息。這些不相關的資料使得研究人員能夠評估他們從風格相似的資料中區分相關與不相關資訊的能力。

原文釋出時間為:2018-05-23

本文作者:文摘菌

本文來自雲栖社群合作夥伴“

大資料文摘

”,了解相關資訊可以關注“

”。

繼續閱讀