天天看點

70多個網站讓你免費擷取大資料存儲庫

70多個網站讓你免費擷取大資料存儲庫

你是否需要大量的資料來檢驗你的app性能?最簡單的方法是從網上免費資料存儲庫下載下傳資料樣本。但這種方法最大的缺點是資料很少有獨特的内容并且不一定能達到預期的結果。以下是70多家可以獲得免費大資料存儲庫的網站。

wikipedia:database :向感興趣的使用者提供所有可用的内容的免費副本。可以得到多種語言的資料。内容連同圖檔可以下載下傳。

common crawl 建立并維護一個所有人都可以通路的開放的網絡。這個資料儲存在亞馬遜s3bucket中,請求者可能花費一些錢來通路它。

common crawl :建立并維護一個開放的網絡,向所有人開放。

edrm file formats data set:由381個檔案夾200種檔案格式組成。

apache mahout tlp項目建立一個可擴充的機器學習算法。mahout有許多免費的和付費的語料庫語料。

edrm enron email data set v2由安然公司郵件資訊和附件組成,存在兩組可下載下傳的壓縮檔案中:xml和pst。

clueweb09用來支援資訊檢索和相關人類語言技術研究的資料庫。它包含了從2009年1月到2月間收集的大約10億個網頁,包含10種語言。資料庫被若幹trec會議的追蹤檢測使用。

dmoz –最大的、最全面的人工編輯的開放式網站目錄。它收集了不同類型的網站連結。dmoz是網際網路搜尋引擎的一個主要來源。

theinfo.org –這是一個大資料集網站,在這裡學者、設計師、藝術家等可以交流技巧和竅門,一起開發和共享工具,并開始整合他們獨有的項目。

project gutenberg 提供超過36000免費電子書的下載下傳,可以下載下傳到個人電腦、kindle, android, ios or 或其他便攜式裝置。

million song data set:與tracks 和藝術家有關的資料。

aws (amazon web services) public data sets:提供了可以無縫融入aws(亞馬遜網絡服務)雲應用的公共資料集的集中存儲庫。

bigml big list of public data sources.

bioassay data:研究文章“生物測定資料的虛拟篩選”,由amanda schierz編寫,有21個生物測定資料集(活性/非生理活性成分),可以下載下傳。

bitly 1.usa.gov data:匿名點選政府連結。

canada open data:有許多政府和地理空間的資料集的試點項目。

canada open data:許多政府和地理空間資料集的試點項目。

causality workbench:資料存儲庫。

corral big data repository:在德克薩斯進階計算中心,提供以資料為中心的技術。

data source handbook:公開資料指南。

datacatalogs.org:來自美國、歐盟、加拿大、ckan以及其他的公開政府資料。

data.gov.uk:英國的公共可用資料(london datastore也是)。

data.gov/education:對于教育資料資源的主要指南,包括高價值的資料集、資料可視化、課堂資源、建立自公開資料的應用程式以及其他。

datamarket:可視化的世界經濟、社會、自然和工業,擁有來自聯合國,世界銀行,歐盟統計局和其他重要資料提供者的一億時間序列。

datamob:可以很好利用的公開資料。

datasf.org:可向city & county of san francisco, ca.購買的資料集資訊交流中心。

dataferrett:一個用來通路和使用the data web的資料挖掘工具,許多網上美國政務資料集的集合。

econdata:大量經濟學的時間序列,由許多美國政府機構編制。

enron email dataset:來自大約150個使用者的資料,這些使用者大多數是安然公司進階管理人員。

europeana data:包含2000萬文字,圖檔,視訊開放的中繼資料,以及由歐洲數位圖書館收集的聲音,對于歐洲文化遺産内容值得信賴的、全面的資源。

europeana data:

fedstats:一個美國統計資料的綜合資源以及更多

fimi repository for frequent itemset mining:工具和資料集。

financial data finder at osu:大型财務資料集目錄。

gdelt:關于事件、位置和音調的全球資料,被英國衛報形容為“生命、宇宙和一切的大資料曆史”。

geo (geo gene expression omnibus):一個支援miame相容資料送出的基因表達/分子豐度資訊庫,一個精心策劃的網上資源,用于基因表達資料的浏覽,查詢和檢索。

geoda center:地理和空間資料。

google ngrams datasets:來自數google掃描的百萬書籍文本。

grain market research:财務資料,包括股票、期貨等。

hilary mason research-quality big data sets收集許多文本和圖檔資料集。

hitcompanies datasets:hitcompanies随機取樣的1萬個英國公司全面的資料,采用人工智能/機器學習進行自動更新。

icwsm-2009 dataset:包含2008年8月1日到10月1日之間的4400萬個博文。

infochimps:一個資料開放的目錄和集合,允許分享、出售和下載下傳關于任何内容的資料。

investor links:包含财物資料。

kdd cup center:資料、工作表和結果。

kevin chai list of datasets:文本、sna和其他領域。

konect:科布倫茨網絡收集,擁有大量各種類型的網絡資料集,以便在網絡挖掘領域進行研究。

linking open data 工程,免費向所有人提供資料。

mit cancer genomics gene expression datasets and publications:來自麻省理工whitehead center用于基因組研究。

ml data:歐盟pascal2網絡資料儲存庫。

nasdaq data store:提供市場資料。

national government statistical web sites:來自大約70個網站的資料、報告、統計年鑒、新聞和其他,包括非洲、歐洲、亞洲和拉丁美洲的國家。

national space science data center (nssdc):美國國家航空航天局的資料集,包含行星探索、空間和太陽實體學、生命科學、天體實體學以及其他方面。

open data census:評估世界各地的開放資料的狀态。

opendata from socrata:允許通路超過10000個資料集,包括商業、教育、政府和娛樂。

open source sports:大量運動資料庫,包括棒球、足球、籃球和曲棍球。

peter skomoroch dataset bookmarks pubgene(tm) gene database and tools:基因組有關的出版物資料庫。

quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

qunb:一個用來發現和可視化的資料資料的平台。

robert schiller data:住房建築、股票市場和更多的來自于他的書 irrational exuberance的資料。

smd: stanford microarray database,存儲來自微陣列實驗的原始的和标準的資料。

jerry smith dataset collection:财經、政府、機器學習、科學和其他資料。

sourceforge.net research data:包含大約10萬個項目和超過100萬注冊使用者的活動的曆史和現狀的統計資料的項目管理網站。

statlib,卡内基梅隆大學資料檔案。

statoo datasets part 1和 statoo datasets part 2

time series data library

visual analytics benchmark repository.

uci kdd database repository :适用于機器學習和知識發現研究的大資料集。

uci machine learning repository.

ucr time series data archive:提供資料集、論文、連結和代碼。

united states census bureau.

wikiposit:一個(虛拟的)融合了來自許多不同網站的資料(大多數是金融的),允許使用者合并來自不同來源的資料。

wolfram alpha disease and patient level dat.

yahoo sandbox datasets:語言、圖表、評級、廣告與營銷、競賽。

yelp academic dataset:30家大學的250個最接近商業的所有資料和評論,為學生和學者來探讨和研究

原文釋出時間為:2014-06-19

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号