天天看点

为什么要使用空间统计进行数据分析

从今天开始,准备完整编写《利用R语言进行空间统计分析》的相关资料和教程,此教程部分内容引用哈佛大学的Institute for Quantitative Social Science(量化社会科学学院)一次会议的相关讲座和资料。

讲座人讲座人是哈佛大学政府学院(Department of Government at Harvard University)的尤里 朱可夫博士(Yuri M. Zhukov)。

原始资料引用地址:http://www.people.fas.harvard.edu/~zhukov/spatial.html

当然,里面有不少的数学和统计学专用名词,我尽量进行解读,限于水平,可能不会很到位,希望发现有错误的同学指出问题所在,我将万分感谢,并且在教程完成之后,第一时间送给替我指出问题的同学们斧正。

下面每天尽量能发出几张PPT,并且进行解读:

为什么要使用空间统计进行数据分析

为什么需要有空间统计这个东西存在?主要有三个方面的情况:

1、样本独立性在某些数据分析中,失效了。

样本独立性是经典统计学中里面最重要的概念之一,他的意义在于,每个样本所代表的属性都是独一无二的,另外一个的样本不管怎么样,都完全不会影响其他的样本。最简单的比喻就是丢硬币,不管你第一次丢出来的硬币是正面还是反面,对第二次丢的结果都完全不会产生影响。

但是在空间数据的分析上,就不行了。空间数据有个很重要的特性,就是任何一个空间要素都会影响相邻的要素,并且也被相邻的要素所影响,影响的程度与距离成反比。要素的属性i发生变化的,极有可能对属性j也产生影响。

所以在空间数据分析上,基本上可以宣告样本独立性假设已经失效了。

2、空间数据存在异质性。

也就是说,在空间数据本身,或者观察者的位置发生变化的时候,观察到的结果或者分析的结果都会发生变化。

3、地理系统是一种多要素的复杂巨系统,在多个要素构成的地理系统中,很多时候数据与数据中间的变化,都是因为空间关系引发的。而经典统计学中则不然。

为什么要使用空间统计进行数据分析

空间统计学各种实际的应用中,主要还是紧扣“空间”二字,比如以上这些应用:

在流行病学研究中,流行病传播模型的最重要的关系就是空间位置,无论是因为人类的迁徙带来的传播,还是因为动物迁徙带来的传播,或者是空气、水流等,都与空间有密切的关系。越近的位置,受到感染的速度就会越快,反之亦然。

在犯罪分析中,城市的犯罪热点区域在什么地方?这类研究也一直是空间统计最早的研究内容。

房地产分析中,房价的上涨与价格,向来与地段和区域、交通等有密切的关系。一个价格的洼地,随着一条新地铁线路的开通,可能促成房价的疯狂攀升。

应对叛乱的应用中。如何来识别“油斑”模式是军事情报部门很重要的一项工作。

油斑(oil spot)指的是一个暴乱力量集中区域的向外扩展方式,并且可以用以确定安全区的位置。这个名词最早使用在法国殖民战争和镇压殖民地叛乱的行动中,由法国陆军元帅路易·赫伯特·利奥泰(Louis Hubert Gonzalve Lyautey :17 November 1854 – 21 July 1934) 最早提出。后来,这一专用名词在美国国防部的“哈姆雷特战略计划”中被引用。

为什么要使用空间统计进行数据分析

法国陆军元帅路易·赫伯特·利奥泰

The Strategic Hamlet Program(哈姆雷特战略计划),美国于20世纪60年代,针对越战提出的战略计划,旨在针对北越政权,减少共产主义在越南农村中的影响,打击共产主义游击队的计划。主要作用于农村地区,处理共产主义的扩散和划定所谓的“安全区”。安全区中,并且通过政府保障和经济援助,加强人们对南越政府的忠诚度。不过最后这个计划还是失败了。

clear-hold-build (清理、维持、占领)国际象棋的一种战术术语,美国作战部门以此设计的如何占领一个反叛武装占据的区域的三段论计划:

清理:在我们所在的区域,对反叛分子的力量进行清理,保持自身的发展。

维持:保住并且维持我们区域作为前进基地。

占领:逐步扩大我们的占领区,并且引入援军反攻。

最后,是在社会学里面的组织学习和网络扩散中的研究。

组织学习(organizational learning)是一种知识传播模型。Chris Argyris和Donald Schön在1978年给组织学习(OL)所下的定义是: “诊断和改正组织错误”。 1985年,Fiol和Lyles对“学习”做了更为准确的定义,“通过汲取更好的知识,并加深理解,从而提高行动的过程”。 Dodgson对组织学习的描述是: 企业围绕自己的日常活动和企业文化,构建知识体系,补充知识技能以及组织例行公事的一种方式;组织通过广泛运用员工所掌握的各项技能,从而发展组织效能的一种方式。(1993)。 Huber指出,如果信息交换时组织的潜在行为范围发生变化了变化,那么学习活动在这一变化过程中就已经产生了。