天天看点

大数据概述以及Hadoop什么是大数据?他有哪四个基本特征(四个V)?Hadoop大数据处理架构

  • 什么是大数据?他有哪四个基本特征(四个V)?

    • 大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
    • 数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。

      Volume

    • 处理速度快,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高的要求所以数据量显得对速度要求有些大。

      Velocity

    • 数据种类繁多:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。

      Variety

    • 价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

      Value

  • Hadoop大数据处理架构

    • Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能。
    • hadoop的特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。
    • Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
    • Hadoop的核心是分布式文件系统和MapReduce。
    • 借助于Hadoop,程序员可以轻松地编写分布式并行程序,并将其·运行于廉价计算机集群上,万成为那个海量数据的存储与计算。
    • 国内采用Hadoop的公司主要有:百度、淘宝、网易、华为、中国移动等。
    • Hadoop生态系统包括核心的HDFS和MapReduce以外还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。
    • Hadoop的安装配置主要包括以下五个步骤     
      • 创建Hadoop用户(创建用户:useradd,设置密码:passwd)​
      • 安装Java(Hadoop开发和运行都需要Java的支持,Ubuntu系统可能已经预装了java)​
      • 设置SSH登录权限
      • 单机安装配置
      • 伪分布式安装配置