天天看点

Python数据挖掘学习02--numpy和pandas模块基本使用

一、numpy模块

导入numpy模块并命名为npy

>>> import numpy as npy
           

1、创建数组

(1)一维数组
>>> x = npy.array(['22','18','15','4'])
>>> x
array(['22', '18', '15', '4'],dtype='<U2')
>>>
           
(2)二维数组
>>> y = npy.array([['aa','bb','cc'],['12','14'],['adasd']])
>>> y
array([list(['aa', 'bb', 'cc']), list(['12', '14']), list(['adasd'])], dtype=object)
>>> 
           

2、数组排序

>>> a = npy.array([,,,])
>>> a
array([, , ,  ])
>>> a.sort()
>>> a
array([ , , , ])
>>> 
           

3、取最大值最小值

>>> a = npy.array([,,,])
>>> a
array([, , ,  ])
>>> a.min()

>>> a.max()

           

注意:两种情况会取不出最大值最小值的情况

1、数组中有不为数字的项

>>> a = npy.array([['15','22','17','6'],['12','23']]) #不为数字
>>> a.min()
['12','23']  #就会出现找不出最小数的情况
           

2、数组同一维度中长度不同也会报错

>>> a = npy.array([[,],[,,]]) 
>>> a.min()
[,]
           

4、切片

a[0:2]相当于取a数组中下表为0到2但不包含2下标的数组,也就是说是取a[0],a[1]

>>> a = npy.array([,,,,,,])
>>> a
array([, , , , , , ])

>>> a[:]   #取0~2的数组但不包含2
array([, ])

>>> a[:-]  #取到最后一位,但不包含最后一位
array([, , , , , ])

>>> a[:]  #下标为1后的所有数,包含第一一位
array([, , , , , ])

>>> a[:]  #取所有数
array([, , , , , , ])
           

二、pandas模块

导入pandas模块并命名为pda

>>> import pandas as pda
           

1、Series:序列

>>> a = pda.Series([,,,,])
>>> a
    
    
    
    
    
dtype: int64
           

1、Series:序列

>>> a = pda.Series([,,,,])
>>> a
    
    
    
    
    
dtype: int64
           

2、DataFrame:数据框,有行有列

>>> c = pda.DataFrame([[,,],[,,],[,,]])
>>> c
       
      
      
      
           
(1)取头部或尾部几行
#取头部,默认5行
>>> c.head()
       
      
      
      

#取头部2行
>>> c.head()
       
      
      

#取尾部,默认5行
>>> c.tail()
       
      
      
      

#取尾部2行
>>> c.tail()
       
      
      
           
(2)描述
>>> c.describe()
                      
count      
mean       
std        
min        
%    1.5  2.000000  3.5
%    2.0  2.000000  4.0
%    2.5  2.500000  4.5
max        
           

count:每一列的个数

mean:每一列的平均数

(3)反转
>>> c
       
      
      
      

>>> c.T