pandas如何将相同ID的字符串进行合并

写在前面：说来真的很巧，先是有个人在一个qq比赛群里扔了这个问题，我觉得很有意思，然后自己尝试了下，就将自己写的一段代码发给了他。事后，在一个微信公众号的推文里，看到这篇文章数据城堡参赛代码实战篇（三）—我们来探究一个深奥的问题！里面给了一些大神对同样问题的解法，瞬间觉得自己很菜鸡，把大神的和自己做个对比，提醒自己对于pandas的使用不能仅仅停留于表面，还有更多优化简洁的处理方式需要学习！

OUTLINE：

问题描述
自己的解决方案
大神的更优化的解法
总结

问题描述

"""
id   value
1      A
1      B
1      C
2      D
2      E
2      F
变为：
id  value
1   [A,B,C]
2   [D,E,F]

pandas怎么把上面的结构变为下面的形式？
"""

自己的解决方案

import pandas as pd
import numpy as np
data = pd.DataFrame({'id':[,,,,,],'value':['A','B','C','D','E','F']})

data1 = np.array(data.groupby(['id']))#按照id进行分类
# 转变成array对象之后，可以根据data1[0][1]查看其结构

id_kinds = #id的种类，此例比如1、2共两种
all_value = []
for j in range():
    value = []
    for i in data1[j][]['value']:
        value.append(i)
    all_value.append(value)
print(all_value)

#再创建新的dataframe
new_data = pd.DataFrame({'id':[,],'value':all_value})
print(new_data)

输出结果为：

id      value
     [A, B, C]
     [D, E, F]

大神的更优化的解法

解法一：可以用sum方法，将字符串进行连接

import pandas as pd
import numpy as np
data = pd.DataFrame({'id':[1,1,1,2,2,2],'value':['A','B','C','D','E','F']})
data1 = data.groupby(by='id')['value'].sum()

此时的输出结果为：

id
    ABC
    DEF
Name: value, dtype: object

但是还不是我们想要的，因为我们还需要在中间加入逗号分隔

① 我们可以先将原始数据的value都变成“,A”

data = pd.DataFrame({'id':[1,1,1,2,2,2],'value':['A','B','C','D','E','F']})
data['value'] = data['value'].apply(lambda x:','+ x)

② 然后，对其使用sum方法进行字符串相加

此时的输出结果为，value值之前多了“,”

id  value
   ,A,B,C
   ,D,E,F

③ 最后，对该列使用apply函数，去除‘,’

data1['value'] = data1['value'].apply(lambda x :[x[:]])

就得到了最终的结果：

id  value
   [A,B,C]
   [D,E,F]

解法二：对分组之后的结果，直接使用apply函数

一行代码就搞定！

那为什么可以这么做呢？

首先需要剖析的是，groupby之后的数据结构是什么样的，它是由元组构成的（分组名，数据块），数据块也就是dataframe结构。使用以下方式可以查看groupby之后的对象：

for ID，group in group_df:
    print(ID)
    print(group)

apply函数中的x作用的即是数据块（dataframe），通过数据块取value那一行得到的是Series对象，于是可以使用join方法进行操作。

总结

sum方法不仅可以用于数值计算，还可用于对于一个Series对象而言的字符串相加

a = ['a','b']
c = pd.Series(a).sum()

apply函数非常灵活，不仅可以作用于一个Series对象，还可以作用于一个groupby之后的数据块

data['value'].apply(lambda x :*****)
data.groupby(by='**').apply(lambda x :*****)

lambda匿名函数可以极大优化精简我们的代码，是一个非常灵活好用的函数，记住它！

pandas如何将相同ID的字符串进行合并

OUTLINE：

问题描述

自己的解决方案

大神的更优化的解法

总结

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入