数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

数据文件：（汽车油耗分析都是基于这个文件进行分析的）

下载地址：https://www.fueleconomy.gov/feg/download.shtml

一、环境安装与配置

1、下载安装jupyter notebook之前 ,先下载安装anaconda（我的电脑系统：windows10，64位）官网下载： https://www.anaconda.com/download/#windows

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

安装成功后，打开命令行窗口，输入【pip install jupyter】就可以下载安装jupyter，详见步骤3。

2、下载安装python3.6.1（提前已经安装并配置python环境），关于python的下载安装和配置可以百度，主要是配置环境变量path。安装配置成功后，在命令行中输入python，如图：

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

3、在安装好的Anaconda Prompt命令窗口中，输入pip install jupyter（图为安装成功后命令行显示）

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

4、安装ggplot（运行代码时报错，发现问题后，安装解决）

ggplot for python：ggplot是一个python的库，基本上是对R语言ggplot的功能移植到Python上。运行安装：pip install ggplot

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

5、将文件：vehicles.csv放到磁盘目录下：D:/model/vehicles.csv

（这里的路径要和代码中此处的路径一致 vehicles = pd.read_csv(“D:/model/vehicles.csv”) ）

二、在Jupyter Notebook中开始项目

1、打开Jupyter Notebook，新建python文件：

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

在In[ ]单元格中输入python命令：

import pandas as pd

import numpy as np

from ggplot import *

import matplotlib.pyplot as plt

%matplotlib inline

vehicles = pd.read_csv(“D:/model/vehicles.csv”)

print(vehicles.head())

按Shift+enter执行单元格代码，结果如图：

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

2、描述汽车油耗等数据：

接着上面的代码，继续输入：（将之前的代码注释掉，简化页面）

（1）、查看观测点（行）：len(vehicles)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（2）、查看变量数（列）：print (len(vehicles.columns))

print(vehicles.columns)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（3）、查看年份信息：print(len(pd.unique(vehicles.year)))

print(min(vehicles.year))

print(max(vehicles.year))

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（4）、查看燃料类型：print(pd.value_counts(vehicles.fuelType))

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（5）、查看变速箱类型： pd.value_counts(vehicles.trany)

trany变量自动挡是以A开头，手动挡是以M开头；故创建一个新变量trany2：

vehicles[‘trany2’] = vehicles.trany.str[0]

pd.value_counts(vehicles.trany2)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

3、分析汽车油耗随时间变化的规律

（1）、先按年份分组：grouped = vehicles.groupby(‘year’)

再计算其中三列的均值：

averaged= grouped[‘comb08’, ‘highway08’, ‘city08’].agg([np.mean])

为方便分析,对其进行重命名,然后创建一个‘year’的列,包含该数据框data frame的索引：

averaged.columns = [‘comb08_mean’, ‘highwayo8_mean’, ‘city08_mean’]

averaged[‘year’] = averaged.index

print(averaged )

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（2）、使用ggplot包将结果绘成散点图：allCarPlt = ggplot(averaged, aes(‘year’, ‘comb08_mean’)) + geom_point(colour=’steelblue’) + xlab(“Year”) + ylab(“Average MPG”) + ggtitle(“All cars”)

print(allCarPlt)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（3）、去除混合动力汽车：

criteria1 = vehicles.fuelType1.isin([‘Regular Gasoline’, ‘Premium Gasoline’, ‘Midgrade Gasoline’])

criteria2 = vehicles.fuelType2.isnull()

criteria3 = vehicles.atvType != ‘Hybrid’

vehicles_non_hybrid = vehicles[criteria1 & criteria2 & criteria3]

将得到的数据框data frame按年份分组，并计算平均油耗：

grouped = vehicles_non_hybrid.groupby([‘year’])

averaged = grouped[‘comb08’].agg([np.mean])

averaged[‘hahhahah’] = averaged.index

print(averaged)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（4）、查看是否大引擎的汽车越来越少：print(pd.unique(vehicles_non_hybrid.displ))

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（5）、去掉nan值，并用astype方法保证各个值都是float型的：

criteria = vehicles_non_hybrid.displ.notnull()

vehicles_non_hybrid = vehicles_non_hybrid[criteria]

vehicles_non_hybrid.loc[:,’displ’] = vehicles_non_hybrid.displ.astype(‘float’)

criteria = vehicles_non_hybrid.comb08.notnull()

vehicles_non_hybrid = vehicles_non_hybrid[criteria]

vehicles_non_hybrid.loc[:,’comb08’] = vehicles_non_hybrid.comb08.astype(‘float’)

最后用ggplot包来绘图：

gasOnlineCarsPlt = ggplot(vehicles_non_hybrid, aes(‘displ’, ‘comb08’)) + geom_point(color=’steelblue’) +xlab(‘Engine Displacement’) + ylab(‘Average MPG’) + ggtitle(‘Gasoline cars’)

print(gasOnlineCarsPlt)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（6）、查看是否平均起来汽车越来越少了：

grouped_by_year = vehicles_non_hybrid.groupby([‘year’])

avg_grouped_by_year = grouped_by_year[‘displ’, ‘comb08’].agg([np.mean])

计算displ和conm08的均值，并改造数据框data frame：

avg_grouped_by_year[‘year’] = avg_grouped_by_year.index

melted_avg_grouped_by_year = pd.melt(avg_grouped_by_year, id_vars=’year’)

创建分屏绘图：

p = ggplot(aes(x=’year’, y=’value’, color = ‘variable_0’), data=melted_avg_grouped_by_year)

p + geom_point() + facet_grid(“variable_0”,scales=”free”) #scales参数fixed表示固定坐标轴刻度，free表示反馈坐标轴刻度

print(p)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

4、调查汽车的制造商和型号

接下来的步骤会引导我们继续深入完成数据探索

（1）、首先查看cylinders变量有哪些可能的值：print(pd.unique(vehicles_non_hybrid.cylinders))

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（2）、再将cylinders变量转换为float类型,这样可以轻松方便地找到data frame的子集：

vehicles_non_hybrid.cylinders = vehicles_non_hybrid.cylinders.astype(‘float’)

pd.unique(vehicles_non_hybrid.cylinders)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

（3）、现在，我们可以查看各个时间段有四缸引擎汽车的品牌数量：

vehicles_non_hybrid_4 = vehicles_non_hybrid[(vehicles_non_hybrid.cylinders==4.0)]

grouped_by_year_4_cylinder =vehicles_non_hybrid_4.groupby([‘year’]).make.nunique()

plt.plot(grouped_by_year_4_cylinder)

plt.xlabel(“Year”)

plt.ylabel(“Number of 4-Cylinder Maker”)

plt.show()

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

分析：

我们可以从上图中看到，从1980年以来四缸引擎汽车的品牌数量呈下降趋势。然而，需要注意的是，这张图可能会造成误导，因为我们并不知道汽车品牌总数是否在同期也发生了变化。为了一探究竟，我们继续一下操作。

（4）、查看各年有四缸引擎汽车的品牌的列表，找出每年的品牌列表：

grouped_by_year_4_cylinder = vehicles_non_hybrid_4.groupby([‘year’])

unique_makes = []

from functools import reduce

for name, group in grouped_by_year_4_cylinder:

#list中存入set(),set里包含每年中的不同品牌：

unique_makes.append(set(pd.unique(group[‘make’])))

unique_makes = reduce(set.intersection, unique_makes)

print(unique_makes)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

我们发现，在此期间只有12家制造商每年都制造四缸引擎汽车。

接下来，我们去发现这些汽车生产商的型号随时间的油耗表现。这里采用一个较复杂的方式。首先，创建一个空列表，最终用来产生布尔值Booleans。我们用iterrows生成器generator遍历data frame中的各行来产生每行及索引。然后判断每行的品牌是否在此前计算的unique_makes集合中，在将此布尔值Blooeans添加在Booleans_mask集合后面。

（5）、创建一个空列表，最终用来产生布尔值Booleans

boolean_mask = []

这里是注释#—用iterrows生成器generator遍历data frame中的各行来产生每行及索引：

for index, row in vehicles_non_hybrid_4.iterrows():

这里是注释#—判断每行的品牌是否在此前计算的unique_makes集合中,在将此布尔值Blooeans添加在Booleans_mask集合后面：

make = row[‘make’]

boolean_mask.append(make in unique_makes)

df_common_makes = vehicles_non_hybrid_4[boolean_mask]

这里是注释#—先将数据框data frame按year和make分组，然后计算各组的均值：

df_common_makes_grouped = df_common_makes.groupby([‘year’, ‘make’]).agg(np.mean).reset_index()

这里是注释#—最后利用ggplot提供的分屏图来显示结果：

oilWithTime = ggplot(aes(x=’year’, y=’comb08’), data = df_common_makes_grouped) + geom_line() + facet_wrap(‘make’)

print(oilWithTime)

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

这是使用python进行数据分析的简单实践，有利于进一步加深对数据挖掘的认识。

数据挖掘-用python分析汽车油耗的csv数据（环境anaconda3和python3.6.1）

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入