大数据
大数据有很多种,但其价值链都是由四个部分组成,分别是数据生成、数据采集、数据存储和和数据分析。
大数据来源广泛,其噪音、冗余、一致性差的特点,需要抽取式的采集或者整合采集后,再进行数据清洗和去噪,修正处理,然后进行数据分析后,为商业智能、医疗卫生等提供决策支持和预测分析,最终惠及各个行业的使用者。
大数据处理基本流程
一、数据生成
数据生成是大数据的第一步。大数据有着丰富的数据源,可源于企业运营中收集的物流和贸易信息、物联网中的信息、人机交互信息和互联网世界中的位置信息等多种渠道。
01企业内容数据
2013年,IBM 发布分析报告《大数据在现实世界中的应用》(The Applications of Big Data to the Real World),指出企业内部数据是大数据的主要数据源。企业内部数据包含在线交易数据、生产数据、库存数据、销售数据和财务数据。企业以数据形式记录企业活动。对实时性要求高是企业数据的应用场景所要求的,但由于海量的企业数据使得实时处理这些数据变得困难。以亚马逊、沃尔玛等企业为例,亚马逊每天有超过 50 万个来自第三方买家的查询,沃尔玛每小时处理一百万次客户交易。
02物联网数据
物联网亦是大数据的重要来源。以基于物联网构建的智慧城市为例,大数据来自工业、农业、交运和卫生等公共部门与家庭等日常生活活动。从物联网生成的数据同样具有大规模的特征。由于数据源的多元性,物联网数据多样性极强。此外,物联网数据价值密度通常较低。以交通数据为例,交通事故数据比日常交通数据有价值得多,但交通事故在整体交通数据中只占非常小的一部分。
03生物医学领域数据
科研领域也有多种类型的数据生成。生物医学领域贡献了海量数据。随着人类基因组计划(Human Genome Project,HGP)的发展,一种人类基因测序可能会产生十万级GB 的原始数据。而电子病历、临床医疗数据亦迅速增加。2013 年,这一数据就已达 70TB。此外,天文学的天空调查、大型强子对撞机(Large Hadron Collider,LHC)的超环面仪器(ATLAS)实验等研究也产生海量数据。
二、数据获取
数据采集是使用特定的数据收集技术从数据源获取原始数据的方法。常见的数据采集方法为日志文件、传感器、采集网络数据等。其中,网络数据的采集进一步包含网络爬虫(Web Crawler)、分词系统(Word Segmentation System)、任务系统(Task System)和索引系统(Index System)等方法。
采集到的数据传输到统一的存储设施——数据中心(Data Center),以供进一步处理分析。数据传输包含数据中心间网络(Inter-DCN)和数据中心内部网络(IntraDCN)两阶段的传输。其中,数据中心间网络的传输(Inter-DCN Transmissions)指数据从数据源传输到数据中心的过程,而数据中心内部网络的传输(Intra-DCNTransmissions)是数据在数据中心之间流动的过程。
数据获取面临两项挑战。首先由于大数据复杂性和低价值密度的特点,数据往往有着较大的噪声、冗余,且一致性差。例如一个传感器可以收集大量数据,但频率极低的异常数据的意义和价值大大高于海量的日常数据。因此在数据分析前必须进行数据集成、数据清洗等预处理工作。海量数据的预处理对计算机硬件和算法都是严峻的考验。其次,正确地记录元数据也是一项挑战。例如科学实验中,有关特定实验环境、实验过程有着数不胜数的细节。由于后续分析依赖前置步骤,有必要记录数据出处,以识别依赖于该步骤的所有后续处理。因此,研究生成合适的元数据,并通过数据分析管道携带元数据及其来源的数据系统就显得十分重要。
三、数据存储
海量的数据对存储和管理提出了更高的要求。当前解决方案有三种,即海量数据存储系统、分布式存储系统和大数据存储机制。
01海量数据存储系统
海量数据存储技术引入网络存储后,解决了传统开放系统的直连式存储(Direct-Attached Storage,DAS)数据库在存储容量增加时可升级性与扩展性差的缺点。网络存储分为网络附属存储(Network Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)两种,利用网络为用户提供能够访问和共享数据的接口,并通过特殊的数据交换装置、磁盘阵列(Disk Array)、阀门库(Tap Library)或其他存储媒体、软件提供强扩展性。
02健康知识科普
传统关系型的分布式数据库在大数据时代亦受到挑战。扩展性有限和 ACID 特性[(ACID:数据库事务正确执行的四个基本要素,包含原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)]下的强一致性要求使得关系型数据库不适应大数据场景。以 NoSQL 为代表的新型分布式数据库则提供了强扩展性,以应对数据量的高速增长。此外,新型的分布式数据库也能够满足各类非结构化数据的存储。
03大数据存储机制
对大数据的研究促进了大数据存储机制的发展,现有的存储机制自下而上为文件系统、数据库和编程模型。其中,分布式文件系统经过多年的发展与商业化,已经相对成熟。数据库领域,NoSQL 正在变得越来越流行。编程模型的代表则由谷歌公司提出的 MapReduce引例。MapRedue 的强大在于使用大的个人计练机(PC农群,实现自动并行处理和分发。
四、数据分析
数据分析是大数据处理流程的核心。许多传统的数据分析方法仍然可应用于大数据分析,来自统计学、计算机科学的聚类分析、因子分析、相关分析和回归分析:据挖掘算法、机器学习、模式识别、神经网络、遗传算法等多种不同算法在大数据时代也有广泛应用。以下将对几种经典的处理方法展开介绍。
数据挖掘(Data Mining)综合了统计分析中的抽样、估计和假设检验思想,机器学习和模式识别的理论与技术,人工智能、模式识别和建模技术:从信息论、最优化可视化、信息检索等领域借鉴了思想,目的是提取数据,分析数据并做模型化处理,挖掘出其中隐含的重要信息。
相关分析是指用支持度、可信度等参数反映相关性。牛津大学网络学院教授维克多认为,建立在相关关系分析法基础上的预测是大数据的核心。不同于数学模型传统的逻辑推理研究方式,大数据侧重于相关关系的分析方法,是科研思维上的重大转变。基于这一特点,图灵奖得主吉姆·格(Jim Gray)提出数据密集型科研的“第四范式”,将大数据科研从理论、计算、实验三种科研范式中分离出来,成为新的科研范式。
机器学习算法。出于实时性的需要,有时不得已舍弃部分准确性来取得实时性和准确性的平衡,这种思路的典型代表就是在线的机器学习算法。
大数据的分析结果也存在判断与展示上的困难性。大数据的分布特点,由于其海量、多元的特征,很难掌握清楚,因此如何衡量数据分析结果亦十分困难,也成为大数据分析的一项重要挑战。此外,对于海量数据进行数据分析的结果往往也存在结果复杂、多层次等特点。作为呈现数据分析结果的关键技术,对数据可视化技术的探索、应用也因此愈发广泛。典型的可视化技术包括历史流(History Flow)、标签云(Tag Cloud)、空间信息流(Spatial Information Flow)等。人机交互技术、数据起源技术也提供了解决方案。人机交互技术能够让用户参与分析过程,通过交互式的数据分析过程增进用户对分析过程的了解与对分析结果的理解;数据起源技术能够帮助用户追溯数据的分析过程。
*关注“洁净园”,获取更多价值干货!