天天看點

《大資料分析原理與實踐》——第2章 大資料分析模型

大資料分析模型讨論的問題是從大資料中發現什麼。盡管對大資料的分析方法林林總總,但面對一項具體應用,大資料分析非常依賴想象力。例如,對患者進行智能導診,為患者選擇合适的醫院、合适的科室和合适的醫生。可以通過患者對病症的描述建立模型而選擇合适的科室;可以基于對患者位置、醫院擅長病症的資訊以及患者病症的緊急程度建立模型而确定位置合适的醫院;還可以根據醫院目前的隊列資訊建立模型進行推薦,如果隊列較長則顯示已挂号人數較少、等待時間較短的醫生資料,如果隊列較短則顯示那些挂号費和治療費較高但醫術相對高明、經驗相對豐富的醫生資料。

這些分析離不開一系列基本的模型與方法。大資料分析模型用于描述資料之間的關系,我們經常聽說的貝葉斯分類器、聚類、決策樹都是大資料分析模型。

面向具體應用的大資料分析模型往往是這些分析方法的擴充或者疊加,例如我們可以結合支援向量機(SVM)和随機森林一起對心髒病病人的重新入院率做一個預測,對那些重新入院機率高的病人提供更加周到的住院期間的護理和出院後的跟蹤護理。

大資料的分析模型有多種不同分類方法。例如,依據分析的資料類型,可以分類成面向結構化多元資料的多元分析、面向半結構化圖資料的圖分析以及面向非結構化文本資料的文本分析。根據分析過程中輸出和輸入的關系,又可以分類成回歸分析、聚類分析、分類和關聯規則分析等。根據輸入的特征,可以分為監督學習、無監督學習和半監督學習等。

大資料分析是一個比較廣的範疇,和統計分析、機器學習、資料挖掘、資料倉庫等學科都存在關系,因而Michael I. Jordan建議用“資料科學”來覆寫整個領域。而大資料分析模型的建立是其中最基礎也是最重要的步驟。

本章将對大資料分析模型進行概述,首先在2.1節介紹大資料分析模型建立方法,在接下來的兩節中介紹兩種從資料中發現規律的統計方法。一種是直接計算資料的統計量(見2.2節),另一種是利用資料來推斷資料所描述對象的總體特征,即統計推斷(見2.3節)。

繼續閱讀