大数据（四）大数据采集说明分享数据采集种类总结

2023-05-21 18:48:06

文章目录

说明
分享
数据采集
种类
- 数据转换
- datax
- Sqoop
- - flume
- 数据传输
- - kafka
  - pulsar
  - hdfs-over-ftp
总结

2021-09-10

说明

本博客每周五更新一次。
数据处理分为入库、计算和输出，本文主要分享数据入库。

分享

大数据博客列表

数据采集

数据采集是大数据平台数据处理流程的第一步，如何让数据以合适的效率和方式在大数据平台落地，根据场景不同，有着不同方案。一般情况如下。
- 实时数据量巨大，要求绝对的效率，单位时间无法处理意味着数据丢失，一般这种情况下，源数据不做任何转换，如通信行业、电商平台等。
- 数据量中等或一般，要求数据字段一对一转换，并要求同步更新，如mysql、oracle数据库同步。
采集数据追求效率有优先，并能实时同步，针对这些需求，市场上已有成熟的项目或服务，后面一一介绍。

种类

数据采集分为两部分，数据转换和数据传输。
- 数据转换：将源数据转换为符合要求的数据结构，通过数据传输录入大数据集群。
- 数据传输：将源数据录入大数据平台。

数据转换

datax

阿里巴巴开源数据离线同步工具，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
表结构映射关系通过json文件设置。

Sqoop

Apache 开源数据转换工具，主要用于hadoop、Hive、Hbase与传统数据库(mysql、Oracle、postgresql等)间进行数据的传递，反过来，也可以将关系型数据库中数据同步到Hadoop中。

flume

Cloudera发布的高可用、高可靠、分布式海量日志采集、聚合和传输的系统，兼顾数据转换和传输，支持发送方收集数据时定制各类数据；接收方对数据进行简单处理。
flume0.9 和 flume1.0 两个版本变动较大，区别对待。

数据传输

kafka

Apache 开源流处理平台，运行稳定，性能高效，广泛应用于大数据和数据传输领域。
开发语言java和scala。

pulsar

队列和流一体消息传递模型，属于新一代组件，与kafka对标项目，未使用过不做评价。
开发语言java

hdfs-over-ftp

github开源项目，功能是将hadoop平台hdfs数据存储单个节点映射为ftp或sftp服务端，在使用ftp或sftp客户端完成上传。

总结

数据采集是大数据平台重要一环，每个平台对这部分的要求都有差异，适合自己的就是最好的。

大数据 big data 数据库

上一篇: 大数据测试-MySQL binlog

下一篇: 大数据方案-数仓建设

继续阅读