pandas基础

list转化为series

data = [1,2,3,4,5,6]
array = np.array(data)
array_str = array.astype('str') #数据类型转换为字符串
print(array)

series转化为list

ori_cent_date = pd.read_excel('/tmp/核心数据库.xlsx')

ip_list = ori_cent_date.IP.tolist()

创建Series

a = [1,2,3,4,5,6]
b = range(1,7)
a_series = pd.Series(a,index = ['A','B','C','D','E','F'])
b_series = pd.Series(b,index = ['A','B','C','D','E','F'])

字典类型可以直接创建Series

# 字典可以直接创建Series

d = {
    'qinlu':'handsome',
    'lulu':'graceful'
}

s2 = pd.Series(d)
print(s2)

print('-----------------------')

# Series有自动对齐索引功能，NaN表示空，缺失
s3 = pd.Series(d,index=['qinlu','lulu','qinqin'])
print(s3)

DataFrame也可以看做一个字典，只不过它的值为一个序列

# DataFrame也可以看做一个字典，只不过它的值为一个序列

import pandas as pd

dict = {
    'name':['张三','李四','王五','金锁'],
    'sex':['男','男','男','女'],
    'age':[18,19,20,18]
}

df = pd.DataFrame(dict)

print(df)
print(df.info())

# 转换数据类型astype

print(df.age.astype('str'))

行和列操作

import pandas as pd

dict = {
    'name':['张三','李四','王五','金锁'],
    'sex':['男','男','男','女'],
    'age':[18,19,20,18]
}

df = pd.DataFrame(dict)

# 读取列

print(df['age'])
print(df['name'])
print(df[['name','age']])

# 读取行（切片）

print(df[0:3])

# 修改列的值

df['age'] = 18
# df.age = 18
print(df)

df['age'] = [18,19,20,19]
# df.age = [18,19,20,19]
print(df)

# 增加一列

df['country'] = 'chana'
print(df)

# 获取索引信息
print(df.index)

数据筛选

import pandas as pd


dict = {
    'name':['张三','李四','王五','金锁'],
    'sex':['男','男','男','女'],
    'age':[18,19,20,18]
}

df = pd.DataFrame(dict)

# 切片
a = df[['age','sex']]
print(a)

# 筛选sex为男，
b = df[df.sex == '男']
print(b)

# 筛选年龄大于等于19
c = df[df.age >= 19]
print(c)

#筛选性别为女，年龄小于19
d = df[(df.sex == '女') & (df.age < 19)]
print(d)

能进行布尔判断

e = df.sex == '男'
print(e)

# 当逻辑条件复杂时，这种写法并不优雅，比如性别为男，且年龄在18岁，以及性别为女，且年龄在18岁以上的两类人群，这种过滤条件就比较复杂了。pandas中可以用query函数以类SQL语言执行查询。
f = df.query('(age == 19 and sex == "女") or (age >= 19 and sex == "男")')
print(f)

# 利用df.age直接运算
df.age = df.age + 1
print(df)

排序

import pandas as pd
file = '/Users/soymilk/微云同步助手(296672942)/OY/study_happy/python_pandas/pandas_excel/data/List.xlsx'
df = pd.read_excel(file,index_col='ID')
df = df.sort_values(by=['Worthy','Price'],ascending=[False,False]) # 按值进行排序
print(df)

按照条件筛选

'''
筛选
'''
import pandas as pd

def b1830(a):
    return 18 <=a < 30
def b85(b):
    return 85 < b

file = '/tmp/Students.xlsx'
df = pd.read_excel(file,index_col='ID')
df = df.loc[df.Age.apply(b1830)].loc[df.Score.apply(b85)]
print(df)

'''
简化版
'''

# file = '/tmp/Students.xlsx'
# df = pd.read_excel(file,index_col='ID')
# df = df.loc[df.Age.apply(lambda a: 18<=a<30)].loc[df.Score.apply(lambda b: 85<b)]
# print(df)

'''
符合逻辑的版本
'''

# file = '/tmp/Students.xlsx'
# df = pd.read_excel(file,index_col='ID')
# df_filter = df[(18<=df.Age) & (df.Age<30) & (85<df.Score)]
# print(df_filter)

查看DataFrame属性，数据类型等

print(type(df))   # 查看df的类型
print(df.info())   # 有多少数据类型，整个DataFrame占多少字节
print(df.dtypes)  # 查看DataFrame各个列的数据类型

深刻理解DataFrame

import pandas as pd
import numpy as np

# 字典形式
data1 = {'地区':['中国','巴西'],'变电站-x':['变电站-A','变电站-B']}
df1 = pd.DataFrame(data1,index=['A','B'])
print(df1)
print('----------------')

# 序列形式
data2 = [['中国','变电站-A'],['巴西','变电站-B']]
df2 = pd.DataFrame(data2,index=['A','B'],columns=['地区','变电站-x'])
print(df2)

DataFrame修改列名，修改index

修改列名

#直接修改：缺点必须写明每一列，不然会报错
a.columns = ['A','B','C']
Out[4]:
   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9

##推荐方法

#每个列名都修改
a.rename(columns={'a':'A', 'b':'B', 'c':'C'}, inplace = True)
Out[7]:
   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
#修改指定列名
a.rename(columns={'a':'A', 'c':'C'}, inplace = True)
Out[14]:
   A  b  C
0  1  4  7
1  2  5  8
2  3  6  9

修改index

a.set_index('A')

利用iloc选取列和行

# 选取第2列，选取第2-3列（1:3不包括3，即不包括第4列）

df = df[:,1]

df = df[:,1:3]

# 选取第2行，选取第2-3行（1:3不包括3，即不包括第4行）

df = df[1,:]

df = df[1:3,:]

删除包含某个字符串的行

# 通过取反获取不包含精准字符串“2000吨”的结果

df=df[~df['产量'].isin(["2000吨"])] 

# 通过取反获取不包含字符串“吨”的结果

df=df[~df['产量'].str.contains('吨')]

数据类型转换

# 数据类型转化成字符串
df['2016'] = df['2016'].astype('str')

# 数据类型转化为整型
df['2016'] = df['2016'].astype('int')

# 数据类型转化为浮点型
df['2016'] = df['2016'].astype('float')

删除列

# 删除列（需要赋值）
df = df.drop(columns=['产量','平均产量'])
# 直接删除
df.drop(columns=['产量','平均产量'],inplace=True)
# 直接删除（只能删除一列）
del df['产量']

参考文章：

条件筛选数据：https://www.cnblogs.com/nxf-rabbit75/p/10105271.html

pandas基础

继续阅读

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

大数据基础知识问答----spark篇，大数据生态圈Spark相关知识点2.DataFrame相关知识点3.RDD相关知识点4.日志系统5.分布式搜索6.分布式数据库7.基础问答题

Pandas 秘籍Pandas 秘籍第一章第二章第三章第四章第五章第六章第七章第八章第九章

Pandas统计分析基础基本统计分析函数滚动计算(窗口计算)函数

Pandas基础复习-SeriesPandas(panel data & Data Analysis)：Python数据分析库。Pandas库的数据类型:Series类型的基本操作

EDAS 基础排查

Python range() 函数用法

pandas：数据可视化

python selenium xpath定位方式

pandas之基本功能

pandas基础（1）生成对象

python数据清洗 -pandas库1. pandas简介2. Series3.DataFrame

Python数据分析（pandas入门）

Pandas 数据可视化Joyful Pandas动手学数据分析