天天看點

谷歌 BigQuery 現允許查詢所有 GitHub 開源項目

谷歌和github宣布,谷歌bigquery現在為github上280多萬個托管開源項目提供了一個完整的快照。這讓使用者可以使用sql查詢托管在github上的将近20億個開源檔案。

github的bigquery資料集以github archive項目為基礎,該項目旨在擷取github特定時點的快照,以便存儲用來進行進一步的分析。借助github的bigquery資料集,現在随時可以通過任意類似sql的查詢查詢github archive項目的内容。

github開源項目經理arfon smith舉了一個例子,新的bigquery資料集可以用來找出哪個go程式包最常用,或者哪一所美國學校的開源貢獻者最多。他還指出,總體上,該資料集還有利于研究人員研究開源社群或者最新的開發趨勢。

谷歌開發大使felipe hoffa另外添加了幾個有關潛在用途的示例,比如找出使用給定開源庫的每個項目,或者分析其使用方式,以便收集有用的資料,确定那個庫的未來發展方向。

在medium上發表的一篇博文中,hoffa列出了一些由谷歌工程師及其他開發人員建立的查詢。這些查詢可以用來分析go程式,找出最常用的java導入、最常用的angular指令以及最常用的emacs程式包。

github的bigquery資料集包含大約1.5tb的資料,每小時自動更新。下面是基本的使用步驟:

登入谷歌開發者控制台;

建立一個項目;

激活bigquery api;

打開github公共資料集并執行查詢。

谷歌每月免費提供1tb的資料處理,但是,正如谷歌開發大使給我們的提醒,在主資料集(bigquery-public-data:github_repos.contents)上執行一個查詢就會用完這1tb的免費資料。是以,他建議使用23gb的官方摘錄資料(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意專注于流行語言的摘錄資料,諸如go、ruby、javascript、php、python和java。bigquery還可以用來建立自定義資料集,但在這種情況下,使用者需要支付存儲費用。

谷歌bigquery公共資料集是谷歌根據一項特别計劃通過bigquery提供的一系列資料集,使用者隻需要為他們執行的查詢付費,但不用為資料集存儲付費。谷歌bigquery公共資料集提供的其他資料集包括美國人名、hacker news自2006年以來的故事和評論、1029年和2016年之間的全球氣候資料,等等。