天天看点

大数据入门--大数据框架整理

分布式文件系统

HDFS百度百科

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)

HDFS是一个高度容错性的系统

tachyon百度百科

Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统

kfs百度百科

Kosmos distributed file system (KFS)是一个专门为数据密集型应用(搜索引擎,数据挖掘等)而设计的存储系统

计算引擎

离线计算

Spark百度百科

Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发。提供scala/python代码命令行运行、超大数据支持差。

Hadoop百度百科

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算

MapReduce百度百科

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性

流式、实时计算

Apache Storm 分布式实时计算系统 开源中国

Apache Storm 是一个免费开源的分布式实时计算系统。简化了流数据的可靠处理,像 Hadoop 一样实现实时批处理。Storm 很简单,可用于任意编程语言。

资源管理

YARN百度百科

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

Mesos百度百科

Apache Mesos 是一个集群管理器类似于YARN,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行 Hadoop、MPI、Hypertable、Spark

分析引擎(预计算系统)

Apache Druid中文文档

Apache Druid是一个高性能的实时分析型数据库

Kylin百度百科

Kylin:预计算、好优化、高性能、支持mr、spark、基于时间的增量更新、流式更新、数据源有hive/kafka、提供开发用的管理台是一套开发系统。由于有预计算、所以其他各个模块独立,能支持高并发。可以直接作为软件系统的数据源。

中间件

Apache Phoenix csdn文章:Phoenix是一个开源的HBASE SQL层

数据库

Hbase百度百科

Hbase:key/value、强一致性、不丢数据

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统

cassandra百度百科

Cassandra:弱一致性,数据可能丢失。可用性高、读写性能比hbase高

Cassandra是一套开源分布式NoSQL数据库系统

数据库工具

Hive百度百科

hive是基于Hadoop的一个数据仓库工具

Presto实现原理和美团的使用实践

Presto是一个facebook开源的分布式SQL查询引擎

Impala百度百科

Impala查询系统:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。

搜索服务器(搜索引擎)

Elasticsearch百度百科

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口

机器学习库

TensorFlow百度百科

TensorFlo是一个基于数据流编程(dataflow programming)的符号数学系统

DeepLearning4J开源中国

DeepLearning4J:(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。DL4J与Hadoop和Spark集成,支持分布式CPU和GPU。

Keras百度百科

Keras是一个由Python编写的开源人工神经网络库

mahout百度百科

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。

Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。

继续阅读