大数据入门--大数据框架整理

分布式文件系统

HDFS百度百科

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）

HDFS是一个高度容错性的系统

tachyon百度百科

Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统

kfs百度百科

Kosmos distributed file system (KFS)是一个专门为数据密集型应用（搜索引擎，数据挖掘等）而设计的存储系统

计算引擎

离线计算

Spark百度百科

Spark：各种格式、各种计算（机器学习、图形计算）、可sql、可代码处理、支持scala/java/python语言开发。提供scala/python代码命令行运行、超大数据支持差。

Hadoop百度百科

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算

MapReduce百度百科

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性

流式、实时计算

Apache Storm 分布式实时计算系统开源中国

Apache Storm 是一个免费开源的分布式实时计算系统。简化了流数据的可靠处理，像 Hadoop 一样实现实时批处理。Storm 很简单，可用于任意编程语言。

资源管理

YARN百度百科

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

Mesos百度百科

Apache Mesos 是一个集群管理器类似于YARN，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行 Hadoop、MPI、Hypertable、Spark

分析引擎(预计算系统)

Apache Druid中文文档

Apache Druid是一个高性能的实时分析型数据库

Kylin百度百科

Kylin：预计算、好优化、高性能、支持mr、spark、基于时间的增量更新、流式更新、数据源有hive/kafka、提供开发用的管理台是一套开发系统。由于有预计算、所以其他各个模块独立，能支持高并发。可以直接作为软件系统的数据源。

中间件

Apache Phoenix csdn文章：Phoenix是一个开源的HBASE SQL层

数据库

Hbase百度百科

Hbase：key/value、强一致性、不丢数据

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统

cassandra百度百科

Cassandra：弱一致性，数据可能丢失。可用性高、读写性能比hbase高

Cassandra是一套开源分布式NoSQL数据库系统

数据库工具

Hive百度百科

hive是基于Hadoop的一个数据仓库工具

Presto实现原理和美团的使用实践

Presto是一个facebook开源的分布式SQL查询引擎

Impala百度百科

Impala查询系统：hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化，并且有的语句超过内存会报错。

搜索服务器(搜索引擎)

Elasticsearch百度百科

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口

机器学习库

TensorFlow百度百科

TensorFlo是一个基于数据流编程（dataflow programming）的符号数学系统

DeepLearning4J开源中国

DeepLearning4J：（DL4J）是一套基于Java语言的神经网络工具包，可以构建、定型和部署神经网络。DL4J与Hadoop和Spark集成，支持分布式CPU和GPU。

Keras百度百科

Keras是一个由Python编写的开源人工神经网络库

mahout百度百科

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

Spark MLlib简介

MLlib 是 Spark 的机器学习库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。

大数据入门--大数据框架整理

分布式文件系统

计算引擎

资源管理

分析引擎(预计算系统)

中间件

数据库

数据库工具

搜索服务器(搜索引擎)

机器学习库

继续阅读

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结