《大資料分析原理與實踐》——第2章大資料分析模型

2021-11-10 14:24:17

大資料分析模型讨論的問題是從大資料中發現什麼。盡管對大資料的分析方法林林總總，但面對一項具體應用，大資料分析非常依賴想象力。例如，對患者進行智能導診，為患者選擇合适的醫院、合适的科室和合适的醫生。可以通過患者對病症的描述建立模型而選擇合适的科室；可以基于對患者位置、醫院擅長病症的資訊以及患者病症的緊急程度建立模型而确定位置合适的醫院；還可以根據醫院目前的隊列資訊建立模型進行推薦，如果隊列較長則顯示已挂号人數較少、等待時間較短的醫生資料，如果隊列較短則顯示那些挂号費和治療費較高但醫術相對高明、經驗相對豐富的醫生資料。

這些分析離不開一系列基本的模型與方法。大資料分析模型用于描述資料之間的關系，我們經常聽說的貝葉斯分類器、聚類、決策樹都是大資料分析模型。

面向具體應用的大資料分析模型往往是這些分析方法的擴充或者疊加，例如我們可以結合支援向量機（SVM）和随機森林一起對心髒病病人的重新入院率做一個預測，對那些重新入院機率高的病人提供更加周到的住院期間的護理和出院後的跟蹤護理。

大資料的分析模型有多種不同分類方法。例如，依據分析的資料類型，可以分類成面向結構化多元資料的多元分析、面向半結構化圖資料的圖分析以及面向非結構化文本資料的文本分析。根據分析過程中輸出和輸入的關系，又可以分類成回歸分析、聚類分析、分類和關聯規則分析等。根據輸入的特征，可以分為監督學習、無監督學習和半監督學習等。

大資料分析是一個比較廣的範疇，和統計分析、機器學習、資料挖掘、資料倉庫等學科都存在關系，因而Michael I. Jordan建議用“資料科學”來覆寫整個領域。而大資料分析模型的建立是其中最基礎也是最重要的步驟。

本章将對大資料分析模型進行概述，首先在2.1節介紹大資料分析模型建立方法，在接下來的兩節中介紹兩種從資料中發現規律的統計方法。一種是直接計算資料的統計量（見2.2節），另一種是利用資料來推斷資料所描述對象的總體特征，即統計推斷（見2.3節）。

《大資料分析原理與實踐》——第2章大資料分析模型

繼續閱讀

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

K-近鄰算法以及圖像分類應用

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

《大資料分析原理與實踐》——第2章 大資料分析模型

繼續閱讀

《大資料分析原理與實踐》——第2章大資料分析模型