天天看點

MATLAB 資料分析方法(第2版) 1.1 資料分析與MATLAB

第1章 matlab基礎 

 matlab資料分析方法

本章主要介紹matlab軟體的一些入門知識,包括matlab界面及其基本操作、變量與函數、運算符與操作符、矩陣資料的輸入與輸出、符号運算、m檔案與程式設計等,為讀者學習以後各章打下基礎。

<b> </b>

<b>1.1 資料分析與matlab</b>

<b></b>

1.1.1 資料分析概述

1.資料分析的概念

資料分析是指用适當的統計方法對收集來的資料進行詳細研究,提取其中有用資訊并形成結論,以求最大化地開發資料的功能,發揮資料的作用。在統計學領域,有人将資料分析劃分為描述性資料分析、探索性資料分析以及驗證性資料分析。描述性資料分析是描述測量樣本的各種特征及其所代表的總體特征,探索性資料分析側重于在資料之中發現新的特征,驗證性資料分析側重于已有假設的證明或證僞。

資料分析的目的是把隐藏在資料背後的資訊集中和提煉出來,總結出研究對象的内在規律。在實際工作當中,資料分析能夠幫助管理者進行判斷和決策,以便采取适當政策與行動。例如企業通過對産品的市場銷售資料分析,可把握目前産品的市場動向,進而制定出今後合理的産品研發和銷售計劃。

2.資料來源與分類

資料分析的起點是取得資料。資料是通過實驗、測量、觀察、調查等方式擷取的結果,這些結果常以數量的形式展現出來,是以資料也稱為觀測值。資料按照不同的标準進行分類,可分為觀測資料與試驗資料、一手資料與二手資料、時間序列資料與橫截面資料等。

1)觀測資料與試驗資料。觀測資料是在自然的未被控制的條件下觀測到的資料,如社會商品零售額、消費價格指數、汽車銷售量、某地區降水量等。利用這類資料進行觀測所研究的個體,并度量感興趣的變量。試驗資料是在人工幹預和操縱的條件下産生的資料,這種資料通常來自于科學與技術實驗。例如,在研究不同的藥物成分組成對某種疾病的治療效果有什麼不同時,記錄實驗藥物成分在不同的條件下産生相應的治療效果資料,那麼藥物成分資料與治療效果資料就是試驗資料。

2)一手資料與二手資料。一手資料是針對特定的研究問題,通過專門收集、調查或試驗獲得的資料。例如,為制定一家百貨商店的營銷方案,在這家商店所在城市抽取近300戶家庭作為樣本進行調查,收集下列資料:對本商店及其競争對手商店的熟悉程度;家庭成員在各個商店購物的頻率;選擇百貨商店時考慮的因素,如商品品質、種類、退賠政策、服務、價格、店址、商店布局、信用與收款政策;每個商店的偏好評分;被調查者的年齡、性别、受教育程度等。二手資料是由各種媒體、機構等釋出的資料,資料分析人員可以根據研究的問題,從這些資料中加以選擇,如證券市場行情、物價指數、耐用消費品銷售量、利率、國内生産總值、進出口貿易資料等。

3)時間序列資料與橫截面資料。時間序列資料是對同一研究對象按時間順序收集得到的資料,這類資料反映某一事物、現象等随時間的變化狀态或程度。例如,2005年至2014年中國人均國内生産總值指數(上年=100)資料分别為:110.7,112.1,113.6,109.1,108.7,110.1,109.0,107.2,107.2,106.7(資料來源:《中國統計年鑒2014》)。同樣,某商場每日銷售額、某股票每日收盤價、滬深股市每日收盤指數等都是時間序列資料。

橫截面資料是在同一時間、不同統計機關、相同統計名額組成的資料列,這類資料展現的是個體的個性,突出個體的差異。例如,某日滬市全部交易股票的當日收盤價資料、2014年中國31省市人均國内生産總值增長率資料都是橫截面資料。

近年來,出現了将橫截面資料和時間序列資料合并起來進行研究的資料類型,稱為面闆資料(panel data)。該資料具有橫截面和時間序列兩個次元,當這類資料按兩個次元進行排列時,資料都排在一個平面上,與排在一條線上的一維資料有着明顯的不同,整個表格像是一個面闆。該類資料模型可以分析個體之間的差異情況,又可以描述個體的動态變化特征。例如,每年各地區的國内生産總值增長率資料;在一定時期間隔内對同一地區同樣的家庭進行調查,以觀察其住房和經濟狀況是否有變化,這樣得到的資料都是面闆資料。

3.資料分析過程

資料分析過程包括确定資料分析的目标、研究設計、收集資料、分析資料、解釋結果。

1)确定資料分析的目标。資料分析的目标是分析和解決特定的領域問題,而這個問題可以用量化分析的方法來解決。

2)研究設計。研究設計是根據資料分析的目标尋求解決方案。一般而言,資料分析是用量化分析的方法對現象進行描述、解釋、預測與控制。一個特定的領域問題要轉化為資料分析問題,首先要進行量化研究設計,确定用什麼量化研究方法以及怎樣研究。常用的量化研究方法有調查法(用調查或觀測得到的樣本資料推斷總體)、相關研究法、實驗法、時序分析法等。

3)收集資料。确定了所要解決的問題的研究設計後,根據所要采用的量化研究方法收集資料。例如,若采用調查法,需要确定具體抽樣方法以擷取資料;若采用實驗法,需要進行實驗設計,通過實驗來擷取資料等。這些是為所要解決的問題專門收集的一手資料。除此之外,通常還需要二手資料。

4)整理與分析。資料整理與資料分析即利用資料分析方法進行計算和分析。資料分析方法以統計分析技術為主,借助各種軟體(spss、sas、excel、s-plus等)工具,完成資料的計算分析任務。本書以matlab為工具進行計算。

5)解釋和分析計算結果。使用各種方法與軟體等工具計算後,會得到一系列結果,包括各種圖表、資料等。說明、解釋和分析這些結果,或利用計算結果檢驗各種假設、預測、控制等,進而最終解決所要研究的問題。最後送出資料分析報告,供決策時參考。

1.1.2 matlab在資料分析中的作用

matlab是一套高性能的數值計算和可視化軟體,它集矩陣運算、數值分析、信号處理和圖形顯示于一體,構成了一個界面友好、使用友善的使用者環境,是實作資料分析與處理的有效工具,其中matlab統計工具箱更為人們提供了一個強有力的統計分析工具。

選擇matlab軟體作為資料分析工具,不僅節約了資料分析過程中的計算時間,而且增加了統計推斷的正确性,提高了資料分析的效率。但要注意,盡管軟體對資料分析起到非常大的作用,但軟體不能處理資料分析中所有階段所要解決的問題。明确這一點後可以更好地使用軟體。确定資料分析的目标、對問題的研究設計、選擇統計分析方法、收集資料、解釋和分析計算結果,這些都不是軟體所能替代解決的。

本書介紹資料分析的基本理論方法,應用matlab編寫程式進行資料分析,既面向過程又面向對象。為友善讀者,以下對matlab的基本操作方法作比較系統的介紹。

繼續閱讀