阿里云天池Python训练营

本节主要介绍python中的数据分析方法，结合之前的学习内容，对于宝可梦精灵中的各种精灵数据进行分析，找寻其中的最强精灵。

一、数据分析实战

1. 数据集下载

!wget -O pokemon_data.csv https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv

从https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv上自动下载数据集并存储为pokemon_data.csv文件

2. 导入模块

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

导入数据分析需要的相关模块

3. 数据读取

df = pd.read_csv("./pokemon_data.csv")

利用pd.read_csv函数读取数据集

利用pd.head()函数查看数据前5行内容

利用df.info()函数查看数据完整信息

数据共有801行 41列（801种宝可梦每种宝可梦有41个特征）

4. 特征缺失情况

percent_missing = df.isnull().sum() * 100 / len(df)

missing_value_df = pd.DataFrame({ 'column_name': df.columns, 'percent_missing': percent_missing })

missing_value_df.sort_values(by='percent_missing', ascending=False)).head()

计算特征确实百分比并显示前5个

type2缺失比最高大部分通常宝可梦只有一种属性

5.数据分布情况

df['generation'].value_counts().plot.bar()

利用df['generation'].value_counts()来计算不同世代的宝可梦数量并绘制柱形图

如图所示第5代宝可梦数量最多第6代宝可梦数量最少

df['type1'].value_counts().sort_values(ascending=True).plot.barh()

利用df['type1'].value_counts()来计算不同属性的宝可梦数量并绘制柱形图

如图所示水系宝可梦数量最多飞行系宝可梦数量最少

plt.subplots(figsize=(10, 10))

sns.heatmap(df[df['type2']!='None'].groupby(['type1', 'type2']).size().unstack(), linewidths=1, annot=True, cmap="Blues" )

plt.xticks(rotation=35)

plt.show()

统计双系宝可梦的数量

6.相关性分析

plt.subplots(figsize=(20,15))

ax = plt.axes()

ax.set_title("Correlation Heatmap")

corr = df.corr()

sns.heatmap(corr,

xticklabels=corr.columns.values,

yticklabels=corr.columns.values)

利用df.corr()来计算不同特征间相关性并利用sns.heatmap绘制热力图

如图所示攻击力和基础值密切相关传说级宝可梦的孵蛋距离都很长孵蛋距离越短的宝可梦越开心越高越大越珍贵的宝可梦越不开心

sns.jointplot("base_egg_steps", "experience_growth", data=df, height=5, ratio=3, color="g")

利用sns.heatmap绘制孵蛋步数与经验成长之间的散点图

如图所示孵蛋步数基本在5000~10000步但并不是步数越多经验越高

sns.jointplot("attack", "hp", data=df, kind="kde")

利用sns.jointplot绘制攻击力与血量之间的核密度估计图

如图所示攻击力与血量成正比但血量的影响系数较小宝可梦集中在50血量 50-100攻击

7.战斗分析

只关注六个基础值：血量攻击力防御力特攻特防速度

interested = ['hp','attack','defense','sp_attack','sp_defense','speed']

sns.pairplot(df[interested])

利用sns.pairplot绘制散点图矩阵

plt.subplots(figsize=(10,8))

ax = plt.axes()

ax.set_title("Correlation Heatmap")

corr = df[interested].corr()

sns.heatmap(corr, xticklabels=corr.columns.values, yticklabels=corr.columns.values, annot=True, fmt="f",cmap="YlGnBu")

每种战斗属性的均值在前1/3左右各属性值之间大部分都是成正比的

8.挑选宝可梦

for c in interested:

df[c] = df[c].astype(float)

df = df.assign(total_stats = df[interested].sum(axis=1))

利用df.assign()将战斗属性值进行加和存储为新的特征数值战斗力：total_stats

total_stats = df.total_stats

plt.hist(total_stats,bins=35)

plt.xlabel('total_stats')

plt.ylabel('Frequency')

利用plt.hist()绘制战斗力的分布直方图

水平轴表示战斗力的高低垂向表示出现的频次

plt.subplots(figsize=(20,12))

ax = sns.violinplot(x="type1", y="total_stats", data=df, palette="muted")

利用sns.violinplot() 绘制不同属性战斗力的小提琴图

水平轴表示不同的属性垂向表示战斗力的高低形状表示数据分布

df[(df.total_stats >= 570) & (df.is_legendary == 0)]['name'].head(10)

过滤和排序确定十大最强非传说级的宝可梦

分别是妙蛙花喷火龙水箭龟比雕胡地呆河马耿鬼袋兽大甲暴鲤龙

阿里云天池Python训练营阿里云天池Python训练营一、数据分析实战

阿里云天池Python训练营

一、数据分析实战

1. 数据集下载

2. 导入模块

3. 数据读取

4. 特征缺失情况

5.数据分布情况

6.相关性分析

7.战斗分析

8.挑选宝可梦

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

阿里云天池Python训练营阿里云天池Python训练营 一、数据分析实战

阿里云天池Python训练营

一、数据分析实战

1. 数据集下载

2. 导入模块

3. 数据读取

4. 特征缺失情况

5.数据分布情况

6.相关性分析

7.战斗分析

8.挑选宝可梦

继续阅读

阿里云天池Python训练营阿里云天池Python训练营一、数据分析实战