天天看点

非独立同分布 大数据

大数据的应用应该在:有限资源的情况下,快速开展

非独立同分布 大数据

数据总是依赖的,分布发生变化=》适应大数据发展趋势

算法,思维

| —–

|–Non-IID 进展

|–概念

|–数据表达

|–离散

|–K-Means

|–图形特征体现

|–统计学,特征选择,异常检测,推荐系统【理解予以,关联】

|—-独立同分布。 假设条件简单,存在问题

A. 学习问题:

K-Means 数据可能是不独立的,只能做简单应用,Decision Tree 是不可用的

K-Means 要求数据如 K1,Ki,Kn是同分布,且独立的

现实解决问题面对,=》非独立同分布=》

|–异构型 Heterogeneity【属性,源,结果】 //非特征分布

|–Coupling relationship // 非独立

实现原理:

一、如数据是多行,或多维的;

先基于一维,一行数据做 inter/intra 比较

然后与其他维数据的关系,维度/行之间的关系

最后叠加处理。

二、特征选择,异常,无监督的情况

|–Inter Feature | | Application

| |–Feature Weight

Data Object| [outlier factor] |–Model For |

| |–outlier object detection

|–Intra Feature | |

模型训练或学习

先考虑一个值本身的一场,度量【mode/base】

Mode 相对于Base 的偏差

再考虑,两个或两个值:

在已有值得情况下考虑影响

mode A -》 mode B 迁移

使用BRWs 算法处理Data weight 表达和计算

B. 以上是基于数据的统计,数学

还有基于类型的,如Value class

Value graph

对立流数据或不断更新的数据 Stream Data |–对历史数据的依赖

|–数据的增量,更新的时间窗口

C. 推荐系统

特征数据选择决策

问题: 统计学与数据科学的区同

多维数据,应用数据处理的AI 工具/平台