天天看點

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

近日,谷歌宣布,它們的資料集搜尋引擎不再是 beta 版了。這意味着該産品已經正式向使用者們開放使用。Jeff Dean 和谷歌官方都在推特上宣布了這一消息。

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

谷歌資料集搜尋的 beta 版本早在 2018 年 9 月就上線了,該引擎面向「科學家、開發者、資料極客等人群」,一直以來都是人們尋找資料集的主要方式之一。

連結:

https://datasetsearch.research.google.com/
谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

在網絡中,任何你感興趣的主題都可能有無數種資料集。如果你想買一隻小狗,你可以在資料集搜尋中找到小狗買家評價的資料集。如果你喜歡滑雪,也可以找到有關著名滑雪地盈利和受傷機率數字的資料集。今天,谷歌資料集搜尋已經涵蓋了超過 2500 萬種不同類型的資料集,它可以幫助你輕松地找到所有資料集的下載下傳連結。

谷歌表示,經過一年多的努力,資料集搜尋功能的階段性測試已經完成。

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

如果你在資料集搜尋上輸入「skiing」,會出現的結果:出現了從最快的滑雪運動員到滑雪地的收入資料集等不同類型。

正式版更新了什麼?

谷歌從使用者在 Beta 版的使用中獲得了很多經驗。在正式版中,你可以根據所需的資料集類型(表格、圖檔、文本等),或者資料集是否可以免費擷取等條件來進行搜尋。如果資料集是關于某個地區的,你也可以通過地圖進行查找。另外,現在搜尋也做了移動端的适配,并大幅改善了資料及描述的品質。任何資料集釋出者都可以通過 schema.org 開放标準在自己的網站上進行規範性描述,以提高搜尋結果的品質。

對于不同的學科來說,人們進行的搜尋是完全不同的:科學家會尋找研究目标(如搜尋催産素),學生會搜尋包含自己作業主題的關鍵字,業務分析師和資料科學家會尋找移動 app 或快餐店銷售的資料……今天,所有這些内容都有資料集。

谷歌表示,目前人們在資料集搜尋上查詢頻率最高的詞是「教育」、「天氣」、「癌症」、「犯罪」、「足球」以及「狗」。

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

搜尋「快餐店」出現的結果索引。

哪些資料集可以找到?

資料集搜尋引擎可以提供資料集的快照資訊,特别是有關地理資訊、生物和農業方面的資訊。很多資訊都來自于 schema.org,隻要網絡上存在的資料集符合 schema 的開放标準,搜尋引擎就可以搜尋到。

除了公開資料之外,資料集搜尋引擎還包括了很多政府公開資料,包括美國政府超過兩百萬的資料集。絕大部分的公開資料都是以表格形式存儲的,可以很容易地下載下傳并進行處理。

使用體驗

機器之心嘗試了這一資料集搜尋工具。例如,我們在搜尋欄裡輸入了 CIFAR,搜尋引擎很容易就提供了 CIFAR-10 和 CIFAR-100 兩個資料集的搜尋結果,并附帶資料集全名、被引用數量、更新時間、提供者、下載下傳方式、介紹和資訊來源等。

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

如果我們不知道資料集叫什麼名字,但是想看看有沒有某種資料的資料集呢?機器之心嘗試了一些不常用關鍵詞,如「Chinese Poem」(中國詩歌)。

谷歌資料集搜尋正式版出爐:全面更新,覆寫2500萬資料集

搜尋結果也還不錯,提供了相當多的資料集,包括資料集所在的論文等。

下一步計劃

項目團隊表示,他們會繼續優化資料集搜尋這項産品,并歡迎使用者提出進一步改進建議。

參考連結:

https://blog.google/products/search/discovering-millions-datasets-web/ https://www.reddit.com/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/

本文為機器之心報道,轉載請聯系本公衆号獲得授權。