天天看點

R語言資料挖掘1.2 資料源

<b>1.2 資料源</b>

資料充當資料挖掘系統的輸入,是以資料存儲庫是非常重要的。在企業環境中,資料庫和日志檔案是常見來源;在網絡資料挖掘中,網頁是資料的來源;連續地從各種傳感器中提取資料也是典型的資料源。

這裡有一些免費的線上資料源十分有助于學習資料挖掘:

頻繁項集挖掘資料存儲庫(frequent itemset mining dataset repository):一個帶有資料集的存儲庫,用于找到頻繁項集的方法(http://fimi.ua.ac.be/data/)。

uci機器學習存儲庫(uci machine learning repository):一個資料集的集合,适用于分類任務(http://archive.ics.uci.edu/ml/)。

statlib的資料及其描述庫(the data and story library at statlib):dasl是一個線上庫,它擁有說明基本統計方法用途的資料檔案和故事。我們希望提供來自多主題的資料,這樣統計學教師可以找到學生感興趣的真實世界的例子。使用dasl強大的搜尋引擎來查找感興趣的故事和資料檔案(http://lib.stat.cmu.edu/dasl/)。

詞彙網(wordnet):一個英語詞彙資料庫(http://wordnet.princeton.edu)。