天天看点

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

作者:数据炼金术师
“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

在职场里,只要你接触数据或者报表,就会听到或者说出“一维表”、“二维表”、“大宽表”之类的称谓。

可是很多人却搞不清它们的区别和联系,甚至觉得无所谓,反正有数就行了。可惜往往在数据清洗和画图表的时候,出现反复修改调整,频繁踩坑,甚至直接影响数据分析结果。

尤其涉及不同部门,比如业务部门和技术部门,人力部门和数据部门之间,沟通时常出现:你说你的一维表,我说我的二维表。没有统一口径,造成理解歧义,甚至造成业务事故。

在接触数据分析工作中,老海发现这种现象是一种很常见的认知误区,很多人踩坑,甚至都不自知。

<h1 class="pgc-h-arrow-right">为什么会出现这种理解误区?</h1>

老海认为,根本原因是彼此间的理解角度不同,对数据表格的理解角度一般分为2种:

第一种:从存储空间维度上

我们日常所说的表格,无论是excel还是数据库表,基本都是二维表,不存在一维表这个概念! 数据表都是以二维空间维度,存储在关系型数据库中。它们是二维矩阵数组形态,也是我们常说的“大宽表”,包括了很多字段,类型主要为四种:

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

常见数据类型

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

一维表

这种结构,是最理想的存储型数据结构,性能稳定,国内外通用。

第二种、从业务分析维度上

只要从分析维度上看,才会出现我们经常提到的“一维表”和“二维表”

比如,以Excel为首的数据分析中提到的“一维表,二维表”,它们都是最常见的分析型数据结构

当然,“一维”与“二维”表,本身都是二维空间结构来存储,因此只有从分析维度上来看,它们两者才有存在的意义。

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

接下来聊聊,“一维”和“二维”表:

<h1 class="pgc-h-arrow-right">“一维”是什么?</h1>

“一维”表,一般都是代表实体属性的表,它是实体对象集合的记录表。

它的每一行表示一个独立的实体对象,而每一列表示这个实体的某一个属性

它的所有列属性之间遵循MECE法则,彼此独立互不重叠。

它的每一行包含所有属性列,都在描述同一个实体对象,用于研究不同实体间的差异。

比如:在早餐行业里的“一维”表,一般包括年份、城市、产品、职业、销量字段,它们之间没有重叠

每一行都能独立代表一个实体对象,这种表格结构非常适合进行数据清洗和机器学习。

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

“一维”表存在的意义,在于它是数据库设计领域的参考标准,几乎所有主流技术均支持

它非常适合用于适合做流水记录,数据埋点,统计分析,便于导出XLS、CSV、JSON等各种格式。

因此,一行数据就能包括对象的全部信息,是“一维”表最大的特点!

而这种结构的缺点是数据量大且字段数量多,不方便查看和展示。

<h1 class="pgc-h-arrow-right">“二维”表是什么?</h1>

“二维”表是交叉属性表,实体的两个或者多个独立属性,进行交叉分析看属性中元素的统计量。

它的所有列属性之间不遵循MECE法则,彼此可以不独立。

它的每一行中必然存在一个属性的多个元素集合,也可以包含多个属性的多个元素集合,用于研究实体属性间的差异。

比如:不同年份下不同城市的豆浆和牛奶的销量,注意到了吗,存在两个销量度量,而豆浆和牛奶同属于一个属性:产品

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

二维表

“二维”表存在的意义,在于我们日常的阅读习惯,方便我们直观展示和定位数据,比较适合打印、汇报

比如上学时用到课程表,或者工作中的各种数据报表,都是使用这个表格样式。

因此,利用行和列横纵向定位数据,是“二维”表最大的特点!

但是这种样式会对数据清洗造成非常大的麻烦,比如表头、斜线、合并单元格都需要处理掉。

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

谁都见过的表格

<h1 class="pgc-h-arrow-right">“一维”表与“二维”表有何关联?</h1>

“一维”与“二维”表 都能做分析做图表,也都可以进行透视操作。

它们可以相互转化,“一维”表是基础,“二维”表是进阶。

总体来说,可以分为三种情况:

“一维”可属性交叉为“二维”表

“一维”可属性聚合为“一维”表

“二维”可属性逆视为“一维”表

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

具体操作步骤较多,老海之后会专门写些相关内容,这里不再赘述。

<h1 class="pgc-h-arrow-right">“一维”和“二维”表有何用处?</h1>

只有有了“一维”和“二维”表,才能做好分析,才能选择好图表类型

很多课程和书上来就一堆可视化技巧工具,很多人不是不会做图,难在做出图表的数据。

最简单的办法,你可以试试:先看一个图表,然后自己能不能反推出数据源的表格结构

老海敢说很多同学做不到,这就是很多人为什么总是做不好图表的根本原因!

无论你用Excel甚至Python,调试出合适的表格结构都是做图表过程中最耗时的环节

<h1 class="pgc-h-arrow-right">如何“一维”和“二维”表来选择合适的图表类型?</h1>

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

一般来说,我们可以遵守以下规则:

当表格是“一维表”,实体属性表,图表数据结构有以下几种情况:

一、1个类别/有序型属性+1个数值/占比型

如:条形图、折线图、面积、直方等等都可以

二、1个类别/有序型属性+2~3个数值/占比属性

如:组合图、散点图、气泡图

三、2个层次类别/有序型+2~3个数值/占比

如:散点图、气泡图

四、3个层次类别/有序型+1个数值/占比

如:环图、树形图、旭日图

当表格是“二维表”,交叉属性表,图表数据结构有以下几种情况:

一、2个类型/有序型属性+1个数值/占比型属性

如:柱状、条形、折现、面积、热力图

总之,无论“一维”或“二维”表,它包括的类型属性+度量属性&lt;= 4个

“一维表”,“二维表”必须懂!数据清洗和图表制作都离不开它为什么会出现这种理解误区?“一维”是什么?“二维”表是什么?“一维”表与“二维”表有何关联?“一维”和“二维”表有何用处?如何“一维”和“二维”表来选择合适的图表类型?一句话:盯住需求,调好表格,再做图表

<h1 class="pgc-h-arrow-right">一句话:盯住需求,调好表格,再做图表</h1>

老海认为:明确分析目标,处理好“一维”表和“二维”表结构,有助于进行数据清洗规整,

避免图表制作时,来回反复修改数据源结构,制作出最合适的图表出来。

继续阅读