ETL第二课

2023-08-05 20:57:00

数据清洗的背景、定义、原理、基本流程、策略和方法

海量数据的来源是广泛的，数据类型也是多而繁杂的，因此数据中会夹杂着不完整、重复及错误的数据。

如果直接使用这些原始数据，会严重影响数据决策的准确性和效率。

数据清洗：可靠，准确的数据。错误的数据---》错误的决策

“数据质量”

“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值，并最终为企业赢得经济效益。”——以上内容摘自百度百科。

参考：https://blog.csdn.net/kuangfeng88588/article/details/99085074

数据源：MySQL、hadoop、Elasticsearch、redis、mongodb、HBase

mysql模式：

模式层是指数据库的结构，就是关系结构，实例层是指关系中具体存储的数据记录或元组。

create table t_student
(
stu_id integer not null,
stu_name varchar(20) not null,
stu_sex bit default 1,
stu_birth datetime not null,
stu_tel char(11),
stu_addr varchar(255),
stu_photo longblob,
primary key (stuid)
);

mysql完整性约束：

　　为了防止不符合规范的数据进入数据库，在用户对数据进行插入、修改、删除等操作时，DBMS自动按照一定的约束条件对数据进行监测，使不符合规范的数据不能进入数据库，以确保数据库中存储的数据正确、有效、相容。

　　约束条件与数据类型的宽度一样，都是可选参数，主要分为以下几种：

# NOT NULL ：非空约束，指定某列不能为空；

# UNIQUE : 唯一约束，指定某列或者几列组合不能重复

# PRIMARY KEY ：主键，指定该列的值可以唯一地标识该列记录

# FOREIGN KEY ：外键，指定该行记录从属于主表中的一条记录，主要用于参照完整性

# DEFAULT：为该字段设置默认值

# AUTO_INCREMENT：标识该字段的值自动增长（整数类型，而且为主键）

ETL第二课

继续阅读

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理