天天看點

《資料科學:R語言實作》——2.5 使用Excel檔案

本節書摘來自華章計算機《資料科學:r語言實作》一書中的第2章,第2.5節,作者 丘祐玮(david chiu),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

excel是另一種存儲和分析資料的常用工具。當然,我們可以把excel檔案轉化為csv檔案或者其他檔案格式。你也可以在r中安裝加載xlsx程式包,來讀取和處理excel資料。

在本教程中,你需要給開發環境安裝r,同時確定計算機可以通路網際網路。

執行下列步驟,讀取excel文檔。

1.首先,安裝加載xlsx程式包:

《資料科學:R語言實作》——2.5 使用Excel檔案

2.通路www.data.worldbank.org/topic/economy-and-growth 找到世界經濟名額excel檔案,如圖6所示。

《資料科學:R語言實作》——2.5 使用Excel檔案

3.使用download.file從下列url中下載下傳世界經濟名額資料:

《資料科學:R語言實作》——2.5 使用Excel檔案

4.使用excel(或open office)檢視下載下傳的檔案,如圖7所示。

《資料科學:R語言實作》——2.5 使用Excel檔案

5.你可以使用read.xlsx2從下載下傳的excel檔案中讀取資料:

《資料科學:R語言實作》——2.5 使用Excel檔案

6.從讀取的資料中選取國家名、國家碼、名額名、名額碼以及2014年度:

《資料科學:R語言實作》——2.5 使用Excel檔案

7.然後,你可以使用函數dim檢視檔案的次元:

《資料科學:R語言實作》——2.5 使用Excel檔案

8.最後,你可以把過濾的資料寫入名為2014wbdata.xlsx的檔案中:

《資料科學:R語言實作》——2.5 使用Excel檔案

在本教程中,我們介紹了如何使用xlsx程式包讀取和寫入包含世界經濟名額的excel檔案。首先,我們需要安裝加載xlsx程式包。它允許使用者通過r指令,使用java poi包,讀取和寫入excel檔案。是以,要使用java poi包,我們也需要同時安裝rjava和xlsxjars。你可以在libraryxlsx]jarsjava下找到java poi的.jar檔案。以作者的計算機為例,它安裝了windows 7作業系統,.jar檔案位于c:program filesrr-3.2.1libraryxlsxjarsjava路徑下。

下載下傳excel檔案之後,我們可以使用excel檢視。excel檔案的截圖說明經濟名額從第1頁的第4行開始。是以,我們可以使用函數read.xlsx2從這個位置讀取資料。xlsx程式包提供了兩個函數來讀取excel中的資料:read.xlsx和read.xlsx2。因為函數read.xlsx2主要處理java中的資料,是以read.xlsx2的性能要好些(特别的,read.xlsx2在處理多于100000個數值的資料集時相當快)。

當把工作單的内容都讀取到r的資料框後,我們可以從r資料框中選取變量country.name、country.code、indicator.name、indicator.code和x2014,然後使用函數dim檢視資料框的次元。最後,我們可以使用write.xlsx2把轉換後的資料寫入一個excel檔案2014wbdata.xlsx中。