天天看点

【数据挖掘】一、统计分析计算 一、下载一份用来分析的数据集二、Python中的pandas模块简介(数据分析)三、撰写代码

实验目的与要求

            掌握常用的统计分析方法

实验软件

             Python3 + PyCharm +pandas

实验任务

  1. 编程实现中心趋势度量方法,计算一组数据的均值、中位数、众数;
  2. 编程实现度量数据散布,计算数据的极差、四分位数、方差、标准差和四分位数极差

 一、下载一份用来分析的数据集

下载网站:http://archive.ics.uci.edu/ml/datasets.html

【数据挖掘】一、统计分析计算 一、下载一份用来分析的数据集二、Python中的pandas模块简介(数据分析)三、撰写代码
我下载的是  trial.csv,内容如下
           
【数据挖掘】一、统计分析计算 一、下载一份用来分析的数据集二、Python中的pandas模块简介(数据分析)三、撰写代码

二、Python中的pandas模块简介(数据分析)

        pandas模块为我们提供了非常多的描述性统计分析的指标函数,如总和、均值、最小值、最大值等,具体函数如下:

  1. count() #非空元素计算

  2. min() #最小值

  3. max() #最大值

  4. idxmin() #最小值的位置,类似于R中的which.min函数

  5. idxmax() #最大值的位置,类似于R中的which.max函数

  6. quantile(0.1) #10%分位数

  7. sum() #求和

  8. mean() #均值

  9. median() #中位数

  10. mode() #众数

  11. var() #方差

  12. std() #标准差

  13. mad() #平均绝对偏差

  14. skew() #偏度

  15. kurt() #峰度

  16. describe() #一次性输出多个描述性统计指标

三、撰写代码

'''
                  实验1  统计分析计算实验
⒈实验目的与要求
    掌握常用的统计分析方法
2.实验软件
    Python(C、Java亦可)
3. 实验任务
    1、编程实现中心趋势度量方法,计算一组数据的均值、中位数、众数;
    2、编程实现度量数据散布,计算数据的极差、四分位数、方差、标准差和四分位数极差
'''

import pandas as pd
def statistical_analysis_calculation(col):
    mean = col.mean()      # 均值
    median = col.median()  # 中位数
    mode = col.mode()      # 众数

    Range = col.max() - col.min()    # 极差(最大值与最小值之差)
    Quantile = col.quantile(0.25)    # 四分位数
    Var = col.var()        # 方差
    Std = col.std()        # 标准差
    Quantile_Range = col.quantile(0.75) - col.quantile(0.25)  # 四分位数极差
    print(Range, Quantile, Quantile_Range)
if __name__ == "__main__":
    csv_data = pd.read_csv('trial.csv', encoding="gbk")
    column2 = csv_data['LOCATION_ID']  # 第二列
    statistical_analysis_calculation(column2)
           

 参考链接:https://www.cnblogs.com/nxld/p/6058591.html

继续阅读