本節書摘來自異步社群《資料驅動的網絡分析》一書中的第6章,第6.1節,作者: 【美】michael collins 更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
r是一個開源統計分析軟體包,最初由奧克蘭大學的ross ihaka和robert gentleman開發。r的設計者主要是統計學家和資料分析人員,與商業統計軟體包(如s和spss)關聯。r是用于探索性資料分析的工具包,它提供了統計模組化和資料操縱能力、可視化和一個全功能的程式設計語言。
r可以滿足多種分析需求。分析工作需要某些工具來建立和操縱彙總原始資料的小型臨時資料庫。例如,從特定主機采集、按照服務分解的每小時流量彙總。這些資料表比原始資料更複雜,但是其目的不是為了最後釋出——它們仍然需要進行更多的分析。曆史上,microsoft excel曾經是這類分析的主力應用程式,它提供了數值分析、圖表和簡單的列式資料視圖,可以進行過濾、分類和排序。我曾經看到分析人員将excel檔案當作便條一樣傳遞。
我從excel切換到r,是因為我發現它是适合于大規模數值分析的優秀産品。excel的圖形化特性使其在處理大規模的資料集時很笨拙。我發現,r的表格操縱能力非常出色,以可存儲和可共享工作區的形式提供資料來源,可視化能力很強大,全功能腳本語言的出現實作了快速自動化。本章讨論的大部分工作都可以在excel中完成,但是如果你能夠在r的學習上投入時間,我相信你将會發現這是值得的。
本章的前半部分主要關注使用r程式設計環境通路和操縱資料。下半部分關注使用r進行統計測試的過程。
資料驅動的網絡分析
r是一個維護得很好的開放源碼項目。綜合r檔案網絡網站維護最新的windows、mac os x和linux版本的二進制檔案,r軟體包存儲庫以及大量文檔。
安裝r的最簡單方法是擷取對應的二進制檔案(在首頁的頂部),也可以通過各種主流的軟體包管理器獲得r。在本章餘下的部分中,我假定你使用r的圖形界面。
根據你熟悉的工具和環境,還有一些其他與r配合使用的工具。rstudio是一個內建開發環境,以更為傳統的ide架構提供資料、項目和任務管理工具。對于emacs使用者,emacs speaks statistics提供了一個互動式的環境。