天天看點

小白學資料分析----->Clementine的源節點學習

Clementine是一個很有用的工具,在網遊日常資料的進行中,其應用程度不低于Excel和SPSS,盡管Clementine是一個資料挖掘工具,但是在資料處理等方面的功能很強大,在幾十萬到幾百萬甚至幾千萬資料處理上,都能夠應付,而Excel僅僅處理在一百萬左右的資料。使用Clementine有一段時間了,就從基本的開始說起吧,先說說源節點是什麼?

每一個資料處理工具,都需要支援很多種資料格式,由于我們資料存儲形式,或者存儲軟體的因素造成了我們有時候資料的格式會有很多種,為此作為一個好的資料分析軟體,首要的就是要支援很多的資料格式,這樣避免的大資料轉換格式耗費的時間和成本。

在Clementine中就有源節點來完成這個工作,源節點顧名思義,就是資料來源的節點。對應在Clementine中有一個源選項版來完成這個工作,如下所示:

小白學資料分析----->Clementine的源節點學習

企業視圖有關資訊這裡不解釋,目前暫無應用。

資料庫源節點

Cle中使用ODBC将資料導入,支援Oracle、SQLServer、DB2、MySQL等。但是這種方式導入資料,就必須首先配置ODBC資料源,有關如何配置該資料源,這裡不再累述。可以自行參考網上的很多教程。Cle對于資料庫的支援有三層:

1)  所有可能的 SQL 回送都可用,并具有資料庫特定的 SQL 優化

2)  多數 SQL 回送可用,具有非資料庫特定的 SQL 優化

3)  沒有 SQL 回送或優化,隻能向資料庫讀取和寫入資料

使用下列一般步驟通路資料庫中的資料:

為要使用的資料庫安裝 ODBC 驅動程式并配置資料源;

在資料庫節點對話框中,使用表模式或 SQL 查詢模式連接配接到資料庫;

從資料庫中選擇表;

使用資料庫節點對話框中的頁籤,可以更改使用類型和過濾資料字段;

現在我們已經完成了ODBC安裝和配置資料源的工作。下面我們要在Cle中連接配接資料庫,進行查詢通路,輕按兩下資料庫圖示,進入資料流工作區域,右鍵單擊編輯,彈出如下的對話框:

小白學資料分析----->Clementine的源節點學習

上圖為資料頁籤的選項,用于擷取資料庫通路和標明我們要進行操作的表。

模式

可以通過對話框連接配接到指定的表上,也可以通過SQL查詢查詢使用的資料庫。

資料源

此處指定我們需要的資料源,可以手動填寫,也可以通過下拉菜單進行添加,此處我們銅鼓下拉菜單添加,如下圖:

小白學資料分析----->Clementine的源節點學習

在彈出的對話框中,我們選擇test資料源。

小白學資料分析----->Clementine的源節點學習

列出目前我們可用的資料源,如果是剛剛添加的,單擊重新整理,選擇資料源,輸入使用者名和密碼就OK了。

表名

通過選擇按鈕選擇我們進行操作的表,如下圖所示:

小白學資料分析----->Clementine的源節點學習

給表名和列名加上引号

在資料庫中進行查詢時,指定是否要将表名和列名括入引号内(例如,這些名稱是否可包含空格或标點)

去除開頭和結尾的空格

選中選項以丢棄字元串中開頭和結尾的空格。

可變檔案節點

相當于Excel分列操作使用分隔符的模式

可以使用可變檔案節點從自由字段文本檔案(其記錄包含的字段數不變,但包含的字元數可改變)中讀取資料,該檔案又稱為分隔文本檔案。此類型的節點也可用于具有固定長度的頁眉文本和特定類型的注解的檔案。每次讀取一條記錄,并将這些記錄傳遞到流中,直到讀完整個檔案。

讀取定界文本資料時的注意事項

必須在每行末尾處用換行符分隔記錄;

必須使用逗号或其他字元(最好是僅用作分隔符,即該字元不能出現在字段名稱或字段值中)分隔字段;

每一行(包括标題行)都應包含相同的字段數;

第一行應包含字段名稱;

第二行必須包含資料的第一條記錄;

數字值不能包括千位分隔符或分組符号,—例如,3,000.00 中不能使用逗号;

日期值和時間值應該采用“流選項”對話框中可識别的的格式之一,例如DD/MM/YYYY 或HH:MM:SS。

我們導入一個檔案,單擊可變檔案,右鍵編輯,彈出如下的對話框:

小白學資料分析----->Clementine的源節點學習

讀取檔案中的字段名

預設是選中的,此時把檔案的第一行看作是清單前,即變量名。每個字段也能被配置設定一個名字,當然了,如果我們第一行沒有列标簽時,就可以取消選中。

指定字段數

指定每個記錄中的字段數。隻要記錄以新行結束,就可以自動檢測字段數。也可以手動設定字段數。

跳過标題字元

指定要忽略第一個記錄的開頭處的多少個字元。

EOL 注解字元

指定字元(例如 # 或 !)以表示資料中的注解。無論這些字元之一出現在資料檔案的何處,從該字元起直到下一個新行字元(不包括)之前的所有字元都将被忽略。

去除開頭和結尾

丢棄導入字元串中開頭和結尾的空格。

無效字元

空字元或者指定編碼中不存在的的字元,通過丢棄進而删除了,或者替換成其他字元。

小數符号

選擇在資料源中使用的小數分隔符類型。

定界符

選擇将将資料進行分列的符号,也可以自己指定符号,此處是複選,也就是說可以使一個以上的分列手段,這點和Excel的分列大同小異。

類型的掃描行數

對于指定的資料類型要掃描的行數

引号

如何處理導入資料的單引号和雙引号問題

在此對話框中操作任何時刻,都可單擊重新整理以從資料源重新載入字段。在更改到源節點的資料連接配接時,或在對話框的頁籤之間進行操作時,此操作都非常有用。

固定檔案

相當于Excel分列操作的固定長度模式

所謂固定檔案是相對可變檔案而言,使用固定檔案節點從固定字段文本檔案(其字段沒有被分隔,但開始位置相同且長度固定)中導入資料。機器生成的資料或遺存資料通常以固定字段格式存儲。使用固定檔案節點的“檔案”頁籤,可以輕松地指定資料中列的位置和長度。

選擇固定檔案,右鍵單擊編輯,選擇一個檔案,如下所示:

小白學資料分析----->Clementine的源節點學習

資料預覽窗格可用來指定列的位置和長度。預覽視窗頂部的标尺有助于測量變量的長度并指定變量間的斷點。通過單擊字段上方的标尺區域可以指定斷點線。通過拖動可移動斷點,而将其拖動到資料預覽區域之外則可丢棄斷點。

面向行

如果要跳過每個記錄末尾的新行字元,可選中此選項。

跳過标題行

指定要忽略第一個記錄的開頭處的行數。這對忽略列标題非常有用。

記錄長度

指定每個記錄中的字元數。

字段

已為此資料檔案定義的所有字段都在此處列出。有以下兩種定義字段的方式:

 移動标尺,進行控制指定字段;

 通過向下面的表添加空字段行手動指定字段。單擊字段窗格右側的按鈕添加新字段。然後在空字段中輸入字段名、開始位置和長度。這些選項會自動在資料預覽窗格中添加箭頭,并且可以輕松地調整這些箭頭。

SAS源節點&SPSS源節點

SPSS檔案導入對話框

小白學資料分析----->Clementine的源節點學習

SAS檔案導入對話框

小白學資料分析----->Clementine的源節點學習

SAS導入支援四種檔案格式,如上圖所示。導入資料時,所有變量都将保留且不更改任何變量類型。

SPSS和SAS中需要說明的内容:

讀取名稱和标簽

選中此選項将變量名稱和标簽同時讀入。預設情況下将選中此選項,并且變量名稱将顯示在類型節點中。根據流屬性對話框中指定的選項,标簽将顯示在表達式建構器、圖表、模型浏覽器和其他類型的輸出中。

讀取用作名稱的标簽

選擇從檔案中讀取說明性的變量标簽而不是短字段名,并将這些标簽作為變量名稱在

Cle中使用。

Excel源節點

Excel的資料導入相對來說不是很麻煩,作為我們經常使用的工具,有必要介紹一下,下圖為導入資料的對話框:

小白學資料分析----->Clementine的源節點學習

工作表

索引或者名稱指定要導入的工作表。

 索引

指定要導入的工作表的索引值,開頭的 0 表示第一個工作表,1 表示第二個工作表,依此類推。

 名稱

指定要導入的工作表的名稱。單擊省略按鈕 (... ) 從可用工作表清單中進行選擇。

工作表上的範圍

可以第一個非空行作為開始導入資料,也可通過指定單元格的顯式範圍導入資料。

總結

以上為Cle資料導入的大部分内容,作為資料處理的關鍵一步和第一步,意義還是很大的,也是作為資料處理的最基本知識。以上的内容參考SPSS Modeler 14.2幫助手冊。