天天看點

《R語言資料挖掘:實用項目解析》——第1章 使用R内置資料進行資料處理 1.1 什麼是資料挖掘

本節書摘來自華章計算機《r語言資料挖掘:實用項目解析》一書中的第1章,第1.1節,作者[印度]普拉迪帕塔·米什拉(pradeepta mishra),譯 黃芸,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

本書主要介紹在r語言平台上實作資料挖掘的方法和步驟。因為r是一種開源工具,是以對各層次的學習者而言,學習使用r語言進行資料挖掘都會很有意思。本書的設計宗旨是,讀者可以從資料管理技術着手,從探索性資料分析、資料可視化和模組化開始,直至建立進階預測模型,如推薦系統、神經網絡模型等。本章将概述資料挖掘的原理及其與資料科學、分析學和統計模組化的交叉。在本章,讀者将初識r程式設計語言基礎,并通過一個真實的案例,了解怎樣讀取和寫入資料,熟悉程式設計符号和了解句法。本章還包含了r語言腳本,可供讀者動手實踐,以加深對原理和術語的了解,領會資料挖掘任務的來龍去脈。本章之是以這樣設計,是為了讓那些程式設計基礎薄弱的讀者也可以通過執行r語言指令來完成一些資料挖掘任務。

本章将簡述資料挖掘的意義以及它與其他領域(如資料科學、分析學和統計模組化)的關系,還會就使用r進行資料管理的話題展開讨論。通過學習本章的内容,讀者應掌握以下知識點:

了解r語言中所使用的各種資料類型,包括向量和向量運算。

資料框的索引及因子序列。

資料框的排序與合并以及資料類型的轉換。

字元串操作以及資料對象格式化。

缺失值(na)的處理方法。

流控制、循環建構以及apply函數的應用。

資料挖掘可以定義為這樣的過程:從現有資料庫中“解讀”出有意義的資訊,然後加以分析,并将結果提供給業務人員。從不同資料源分析資料,進而歸納出有意義的資訊和洞見——這屬于統計知識的探索,不僅有助于業務人員,也有助于多個群體,如統計分析員、咨詢師和資料科學家。通常,資料庫中的知識探索過程是不可預知的,對探索結果也可以從多個角度進行解讀。

硬體裝置、平闆、智能手機、計算機、傳感器等電子裝置的大規模增長促使資料以超前的速度産生與收集。随着現代計算機處理能力的提升,可以對增長的資料進行預處理和模型化,以解決與商業決策過程相關的各種問題。資料挖掘也可以定義為利用統計方法、機器學習技術、可視化和模式比對技術從離散的資料庫和資訊資源庫中進行知識密集型搜尋。

零售商店内所有物品的條形碼、制造業所有貨物的射頻識别标簽、推特簡訊、facebook上的貼子、遍布城市用于監控天氣變化的傳感器、錄像分析、基于觀看資訊統計的視訊推薦……這些結構化和非結構化資料的增長創造了一個催生各種各樣的工具、技術和方法的生态系統。前文提到應用于各種資料的資料挖掘技術,不僅提供了有用的資料結構資訊,也就企業未來可采取的決策提出了建議。

《R語言資料挖掘:實用項目解析》——第1章 使用R内置資料進行資料處理 1.1 什麼是資料挖掘

資料挖掘包括以下幾個步驟:

1)從資料庫和資料倉庫中抽取需要的資料。

2)檢查資料,删除備援特征和無關資訊。

3)有時需要與其他未關聯資料庫中的資料相合并。是以,需要找到各個資料庫的共同屬性。

4)應用資料轉換技術。有時,一些屬性和特征需要包含在一個模型中。

5)對輸入的特征值進行模式識别。這裡可能會用到任何模式識别技術。

6)知識表達。其中包括把從資料庫中提煉出來的知識通過可視化方式展示給利益相關者。

《R語言資料挖掘:實用項目解析》——第1章 使用R内置資料進行資料處理 1.1 什麼是資料挖掘

在讨論了資料挖掘的流程和核心組成之後,我們也需注意到實施資料挖掘時可能遇到的挑戰,比如運算效率、資料庫的非結構化以及怎樣将其與結構化資料結合、高維資料的可視化問題,等等。這些問題可以通過創新的方法來解決。本書在項目實踐中會涉及一些解決方法。

資料科學是個很寬泛的話題,其中也包含了一些資料挖掘的概念。根據之前對資料挖掘的定義,即它是從資料中發現隐藏模式,找出有意思的關聯并能提供有用的決策支援的過程,可知資料挖掘是資料科學項目的子集,涉及模式識别、特征提取、聚類以及監督分類等技術。分析學和統計模組化包含了很多預測模型——基于分類的模型,通過應用這些方法解決實際業務問題。資料科學、分析學和統計模組化、資料挖掘這些術語之間明顯是有重疊的,是以不應該把它們看作完全獨立的術語。根據項目要求和特定的業務問題,它們重疊的部分可能有所不同。但總的來說,所有概念都是相關聯的。資料挖掘過程也包括基于統計和機器學習方法來提取資料,提取自動化規則,也需要利用好的可視化方法來展示資料。