天天看点

什么是大数据-实施理论

什么是大数据? 您可能会问; 更重要的是,为什么它成为几乎每个业务领域的最新趋势? 只是炒作还是留在这里?

实际上,“大数据”是一个非常直截了当的术语,正如它所说的那样,它是一个非常大的数据集。 多大? 确切的答案是“如您所能想象的那么大”!

这个数据集如何如此庞大? 因为数据可能无处不在,而且传输速度非常快:收集交通数据的RFID传感器,用于收集天气信息的传感器,来自手机的GPRS数据包,发布到社交媒体网站,数字图片和视频,在线购买交易记录,它! 大数据是一个巨大的数据集,其中可能包含来自每个可能产生我们感兴趣的数据的来源的信息。

但是,大数据不仅仅是大小问题。 这是一个机会,可以发现关于新兴和新兴类型的数据和内容的见解,使业务更加敏捷,并回答以前认为超出我们能力范围的问题。 这就是为什么大数据具有四个主要方面的特征:容量,多样性,速度和准确性(值)被称为“大数据的四个V”。 让我们简单地检查一下每个代表什么以及它带来什么挑战:

体积

批量是指企业必须能够捕获,存储和访问的内容量。 仅过去两年就产生了90%的全球数据。 当今的组织不堪重负,海量数据,各种类型的信息容易堆积到TB甚至PB,其中一些信息需要组织,保护和分析。

品种

世界上80%的数据都是半结构化的。 传感器,智能设备和社交媒体正在通过Web页,Weblog文件,社交媒体论坛,音频,视频,点击流,电子邮件,文档,传感器系统等生成这些数据。 传统的分析解决方案与结构化信息(例如结构良好的关系数据库中的数据)配合使用非常好。 数据类型的多样性代表了数据存储方式的根本转变,需要进行分析以支持当今的决策和洞察过程。 因此,多样性代表了各种类型的数据,这些数据在传统的关系数据库中不容易捕获和管理,但可以使用大数据技术轻松存储和分析。

速度

速度要求几乎实时地分析数据,也就是“有时2分钟为时已晚!”。 获得竞争优势意味着在竞争对手之前几分钟甚至几秒钟内确定趋势或机会。 另一个示例是对时间敏感的过程,例如捕获欺诈,其中必须在信息流入企业中时对其进行分析,以使其价值最大化。 时间敏感数据的保存期限很短; 迫使组织对它们进行近实时分析。

准确性(价值)

根据数据采取行动是我们创造机会和创造价值的方式。 数据全都与支持决策有关,因此,当您考虑可能会对您的业务产生重大影响的决策时,您将需要尽可能多的信息来支持您的案例。 但是,仅凭数据量并不能为决策者提供足够的信任以使他们根据信息采取行动。 数据的真实性和质量是激发新见解和想法的最重要领域。 因此,建立对大数据解决方案的信任可能是最大的挑战,这是为成功的决策奠定坚实的基础应该克服。

尽管现有的商业智能和数据仓库解决方案的安装基础并不是为支持四个V而设计的,但正在开发大数据解决方案来应对这些挑战。

以下是目前主要的基于Java的开放源代码的简要介绍,这些工具可支持大数据:

什么是大数据-实施理论
HDFS是Hadoop应用程序使用的主要分布式存储。 HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。 HDFS是专为存储大量数据而设计的,因此与传统文件系统相比,HDFS已针对存储/访问相对少量的非常大的文件进行了优化,而传统文件系统已针对处理大量相对较小的文件进行了优化。
什么是大数据-实施理论
Hadoop MapReduce是一个软件框架,可以轻松地编写应用程序,以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。
什么是大数据-实施理论
Apache HBase是Hadoop数据库,这是一个分布式,可扩展的大数据存储。 它提供对大数据的随机,实时读/写访问,并针对在商品硬件集群上托管超大表(数十亿行X数百万列)进行了优化。 Apache HBase的核心是一个分布式的,版本化的,面向列的商店,其模仿了Google的Bigtable: Chang等人的《 结构化数据的分布式存储系统 》。 正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似于Bigtable的功能。
什么是大数据-实施理论
Apache Cassandra是一个高性能,线性可扩展且高可用性的数据库,可以在商品硬件或云基础架构上运行,使其成为关键任务数据的理想平台。 Cassandra对跨多个数据中心的复制提供了一流的支持,从而为用户提供了更低的延迟,并且知道您可以在区域中断中幸存,因此安心无忧。 Cassandra的数据模型提供了日志结构更新的性能,对非规范化和实例化视图的强大支持以及强大的内置缓存,从而为列索引提供了便利。
什么是大数据-实施理论
Apache Hive是Hadoop的数据仓库系统,可简化数据汇总,即席查询以及对存储在Hadoop兼容文件系统中的大型数据集的分析。 Hive提供了一种将结构投影到此数据上并使用类似于SQL的语言称为HiveQL查询数据的机制。 同时,当在HiveQL中表达这种逻辑不便或效率低下时,该语言还允许传统的map / reduce程序员插入其自定义的mapper和reducer。
什么是大数据-实施理论
Apache Pig是一个用于分析大型数据集的平台。 它由用于表达数据分析程序的高级语言以及用于评估这些程序的基础结构组成。 Pig程序的显着特性是它们的结构适合于实质性的并行化,从而使它们能够处理非常大的数据集。 Pig的基础结构层由一个生成Map-Reduce程序序列的编译器组成。 Pig的语言层当前由称为Pig Latin的文本语言组成,在开发时会考虑易于编程,优化机会和可扩展性。
什么是大数据-实施理论
Apache Chukwa是一个用于监视大型分布式系统的开源数据收集系统。 它建立在Hadoop分布式文件系统(HDFS)和Map / Reduce框架之上,并继承了Hadoop的可扩展性和健壮性。 Chukwa还包括一个灵活而强大的工具包,用于显示,监视和分析结果,以充分利用收集到的数据。
什么是大数据-实施理论
Apache Ambari是用于配置,管理和监视Apache Hadoop群集的基于Web的工具,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。 Ambari还提供了一个仪表板,用于查看集群健康状况(例如热图)以及以可视方式查看MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。
什么是大数据-实施理论
Apache ZooKeeper是一项集中式服务,用于维护配置信息,命名,提供分布式同步以及提供组服务。 所有这些类型的服务都以某种形式被分布式应用程序使用。 简而言之,Apache ZooKeeper是针对分布式应用程序(例如在hadoop集群上运行的那些应用程序)的高性能协调服务。
什么是大数据-实施理论
Apache Sqoop是一种工具,旨在在Apache Hadoop和关系数据库等结构化数据存储之间高效地传输批量数据。
什么是大数据-实施理论
Apache Oozie是一个可扩展,可靠且可扩展的工作流调度程序系统,用于管理Apache Hadoop作业。 Oozie Workflow作业是操作的有向无环图(DAG)。 Oozie Coordinator作业是由时间(频率)和数据可用性触发的Oozie Workflow周期性作业。 Oozie与其余Hadoop堆栈集成在一起,支持开箱即用的几种类型的Hadoop作业(例如Java map-reduce,Streaming map-reduce,Pig,Hive,Sqoop和Distcp)以及系统特定的作业(例如Java程序和Shell脚本)。
什么是大数据-实施理论
Apache Mahout是一个可扩展的机器学习和数据挖掘库。 当前Mahout主要支持四个用例:
  • 推荐挖掘 :了解用户的行为,并从中尝试查找用户可能喜欢的项目。
  • 聚类 :例如获取文本文档,并将其分组为局部相关文档的组。
  • 分类 :从现有的分类文档中了解特定类别的文档的外观,并能够将未标记的文档分配给(希望是)正确的类别。
  • 频繁的项目集挖掘 :获取一组项目组(查询会话中的术语,购物车内容)并识别哪些项目通常一起出现。
什么是大数据-实施理论
Apache HCatalog是用于使用Apache Hadoop创建的数据的表和存储管理服务。 这包括:
  • 提供共享的架构和数据类型机制。
  • 提供表抽象,以便用户不必关心数据的存储位置或存储方式。
  • 提供跨数据处理工具(例如Pig,Map Reduce和Hive)的互操作性。

而已; 大数据,简短的理论介绍和紧凑的实施方法矩阵着重于克服新时代的问题,新时代迫使我们提出更大的问题!

快乐编码

拜伦

翻译自: https://www.javacodegeeks.com/2013/04/what-is-big-data-theory-to-implementation.html