大資料的應用應該在:有限資源的情況下,快速開展
非獨立同分布 大資料
資料總是依賴的,分布發生變化=》适應大資料發展趨勢
算法,思維
| —–
|–Non-IID 進展
|–概念
|–資料表達
|–離散
|–K-Means
|–圖形特征展現
|–統計學,特征選擇,異常檢測,推薦系統【了解予以,關聯】
|—-獨立同分布。 假設條件簡單,存在問題
A. 學習問題:
K-Means 資料可能是不獨立的,隻能做簡單應用,Decision Tree 是不可用的
K-Means 要求資料如 K1,Ki,Kn是同分布,且獨立的
現實解決問題面對,=》非獨立同分布=》
|–異構型 Heterogeneity【屬性,源,結果】 //非特征分布
|–Coupling relationship // 非獨立
實作原理:
一、如資料是多行,或多元的;
先基于一維,一行資料做 inter/intra 比較
然後與其他維資料的關系,次元/行之間的關系
最後疊加處理。
二、特征選擇,異常,無監督的情況
|–Inter Feature | | Application
| |–Feature Weight
Data Object| [outlier factor] |–Model For |
| |–outlier object detection
|–Intra Feature | |
模型訓練或學習
先考慮一個值本身的一場,度量【mode/base】
Mode 相對于Base 的偏差
再考慮,兩個或兩個值:
在已有值得情況下考慮影響
mode A -》 mode B 遷移
使用BRWs 算法處理Data weight 表達和計算
B. 以上是基于資料的統計,數學
還有基于類型的,如Value class
Value graph
對立流資料或不斷更新的資料 Stream Data |–對曆史資料的依賴
|–資料的增量,更新的時間視窗
C. 推薦系統
特征資料選擇決策
問題: 統計學與資料科學的區同
多元資料,應用資料處理的AI 工具/平台