2月16日,我终于按捺不住想刷技能的冲动,把CSDN新尝试购入的数据课给打开了,以下及后面笔记皆为CSDN学院课程《零基础搞定Python数据分析》,前期设备的问题,平板和纸笔的方式完成了前面八章的课程,为了便于后期整理,这里就不按照课程的章节来分博文转换笔记,直接按照Part部分,引入,基础,关键核心,应用,计算,实践这几个部分来整理。同时,将纸质笔记输入的同时,使用编译器完成部分练习,有源码则贴出来,无则跳过。
预期目标是,完成数据分析的技术栈/数据研发的理论部分,最后将听课过程中两个引入生活需求的小点子实现为项目并将结果可视化。下面是大数据分析师的技术栈及相关理论需要,这部分的课程主要侧重于数据分析与数据采集、处理部分的网络爬虫、以及机器学习中的几类算法,还有少部分的数据可视化,只是可能没有侧重于软件的使用而是图形特点的讲解,例如离散连续等。
至于数据采集部分的ETL和信息提取、数据存储部分的数据库知识、大数据模块的Hadoop及hive以及行业业务知识,从重要程度来看,也就是列举的顺序。可以用其他的课程补充,这里先把这部分课程笔记归纳练习。

20200216-20200224 八天正好八章,这篇主要是讲介绍及数据分析的工作流程。
讲课的老师是 刘顺祥,参考教材是他编写的《从零开始学Python数据分析与挖掘》。
【引言】Part 01 数据分析介绍
1. 工具
Python3、Anaconda、jupyter Notebook
P.S:这里有个小技巧,如何在自己指定的目录下打开jupyter,这样的话代码就放在可控范围内。打开想放demo的文件目录下,然后按住shift右击,会出现一个在当前目录下打开命令行,点击后会弹出命令行界面,在命令行中输入:
jupyter notebook
然后稍等几秒会出现启动jupyter的提示,并打开默认浏览器。
这里再标记一下几个快捷键,用多了大概就熟悉了。
# 以下为快捷键
# Ctrl + Enter 只运行当前行
# Shift +Enter 运行并跳转下一个代码框
# Ctrl + / 快速注释当前行
# Shift +Tab 帮助查询 按一次出现基本 再按一次为显示更多
2. 数据分析工作内容
流程:SEMMA
业务场景→分析和建模问题
① S:Sample (搜集数据)
Ways:问卷调查、数据库查询、实验室试验、仪器设备的记录等
② E:Explore (数据探索)
Ways:离散变量的分布比例、连续变量的分布形态、数据异常和缺失、特征选择
③ M:Modify (数据修正) 便于下一步分析建模
Ways:数据类型的转变、数据的一致性处理、异常值和缺失值的处理、数据形态的转变(例如 有偏到无偏)
e.g: 各变量的缺失状态?统计描述?离散变量如何数值化/各变量中的缺失数据如何处理
④ M:Model (数据建模) 数据分析中用的不多,但数据挖掘中有必要掌握
Ways:这里用一张图表示会更清楚一些,主要是有无监督:
e.g: 如何基于调查数据,预测用户收入水平 idea扩展 基于爬取到的业务数据,预测业务水平
⑤ A:Assess (模型评估) 检验Model稳定性及实用性
Ways:RMSE、混淆矩阵、ROC曲线、KS曲线
e.g: 检验KNN对数据的拟合效果
优化问题→比如,如何选择更好的模型 可以度量和预测现有收入数据?
常用策略:增加样本、扩展维度、修正模型参数(调优)、更换其它模型
以上,分析过程是循环往复的。
3.数据分析和挖掘的区别
这个部分使用了一个对比表的方式,直接上纸质笔记。
其中,数据挖掘偏向于技术,而分析侧重于描述和理论分析,最后得到的结果也不完全相同。
这里加一点题外话:现在投入的研究“在线业务数据采集用于直接计算”来说,用专业挖掘的技术手段来实现数据分析的扩展方法。
需要掌握的技能:
- 数据搜集 SQL
- 数据清洗与探索 Excel/Python
- 数据建模 Python
- 结果呈现 PPT(可视化工具)
这部分的纸质笔记就腾完了,主要讲的是数据分析大概是啥,需要做啥,近亲长得像的有哪些,对于这部分的学习有一个大致的了解。
Slogan:刻意练习,每日精进。