天天看點

非獨立同分布 大資料

大資料的應用應該在:有限資源的情況下,快速開展

非獨立同分布 大資料

資料總是依賴的,分布發生變化=》适應大資料發展趨勢

算法,思維

| —–

|–Non-IID 進展

|–概念

|–資料表達

|–離散

|–K-Means

|–圖形特征展現

|–統計學,特征選擇,異常檢測,推薦系統【了解予以,關聯】

|—-獨立同分布。 假設條件簡單,存在問題

A. 學習問題:

K-Means 資料可能是不獨立的,隻能做簡單應用,Decision Tree 是不可用的

K-Means 要求資料如 K1,Ki,Kn是同分布,且獨立的

現實解決問題面對,=》非獨立同分布=》

|–異構型 Heterogeneity【屬性,源,結果】 //非特征分布

|–Coupling relationship // 非獨立

實作原理:

一、如資料是多行,或多元的;

先基于一維,一行資料做 inter/intra 比較

然後與其他維資料的關系,次元/行之間的關系

最後疊加處理。

二、特征選擇,異常,無監督的情況

|–Inter Feature | | Application

| |–Feature Weight

Data Object| [outlier factor] |–Model For |

| |–outlier object detection

|–Intra Feature | |

模型訓練或學習

先考慮一個值本身的一場,度量【mode/base】

Mode 相對于Base 的偏差

再考慮,兩個或兩個值:

在已有值得情況下考慮影響

mode A -》 mode B 遷移

使用BRWs 算法處理Data weight 表達和計算

B. 以上是基于資料的統計,數學

還有基于類型的,如Value class

Value graph

對立流資料或不斷更新的資料 Stream Data |–對曆史資料的依賴

|–資料的增量,更新的時間視窗

C. 推薦系統

特征資料選擇決策

問題: 統計學與資料科學的區同

多元資料,應用資料處理的AI 工具/平台