数据科学家思维:怎么样用数据改造数据
导语
我们继续“优化”模块的思维模型课程。这节课我们要讨论的问题是,怎样通过数据意识解决问题?
我们在解决问题的过程当中,往往能知道一个大方向,但具体怎么干有时候会不够清晰。
但是如果我们有意识用数据定位问题,我们就往往更容易找到解决问题的抓手。
最善于用数据解决问题的专家,我们称之为数据科学家。他跟传统的数据统计最大的区别就在于,统计的目标停留在了记录和整理,而数据科学家则致力于解决真正的现实问题。
这节课我们请到了一位特别善于用数据解决问题的数据科学家,茅明睿。他是数据公司城市象限的创始人,也是北京城市规划研究院的规划设计师。他的强项是借助数据分析,来诊治大城市病。
他和他的数据团队,做了对北京的回龙观城区数据分析和改造建议。这套来自民间的方案,后来还被北京市昌平区政府采纳了。这节课我们就请他来讲一讲,他是怎样用数据,诊断和改造城市的。
这节课的课程导师是茅明睿,研究员是罗砚,由转述师怀沙来进行转述。
好,下面我们开始。
在今天听课的过程里面,我提醒你注意一个区别:通过直觉来进行决策,和通过数据来进行决策这两种之间的区别。
2016年,我开始着手一个课题:怎么能提升回龙观社区的活性?
可能在北京的同学,听到可能就要会心一笑了。回龙观到底是个什么地方呢?
它是北京北五环外的卫星城区,也是出了名的睡城,睡觉的睡。它是1998年被开发出来的,它当时是用来承接北京中心城区的拆迁人口,也是北京第一批经济适用房和回迁房的所在地,目前有超过30万人口住在那,号称亚洲第一大住宅区。
虽然回龙观住了这么多人,却始终缺乏活力。快20年了,也没有形成健康的社区生态。大量居民白天一起涌到其他城区上班,然后晚上再一起涌回来睡觉,通勤又拥挤又耗时间,大家都非常痛苦。住了20年,大家也仅仅是把这里当一张床来用。
这也让回龙观所属的北京市昌平区政府头疼不已。那该怎么提升城区的活性呢?
其实,假设你就是一个聪明的政府干部,拍脑袋你都能想到两个解决办法:
第一个,白天没有人,那就增加工作机会,让人白天回来上班;
第二个,通勤难,就多修路。
但这两个任务摊出来之后,你可能会长叹一声。因为完全无处着手。比如说第一个方案:增加工作机会,那该怎么增加呢?提高哪一类就业机会呢?开商场还是开工厂?还有第二个方案:多修路,在哪个地方多修路?修公交道还是修地铁?资源该怎么投入呢?
所有这些问题完全没有头绪,这就是用直觉决策的问题所在。
同样是这个问题,数据决策会怎么应对呢?请你回到最小白的视角,跟我一起来看看,以一个数据科学家的视角,我们该怎么解决回龙观的活性问题?
新数据是新石油
改造旧城这件事情,人们过去也有很多尝试。政府也是会从数据里寻找决策依据的,比如说,像下面这些数据,一个地区需要几个图书馆、老年人活动中心呢?这个地区的就业岗位和居住的人口数量分别是多少呢?还有这里土地可开发空间是多少呢?
我们看到这些数据的背后,政府真正关注的要么是土地价值的提升,要么是基础设施的完善。但是这些问题的主体,其实是政府。
而当面对“如何提升居民的生活品质,提升城市活性”这样的问题,以往的解决方案难以给出准确的答案。
好消息是,这个时代做数据的人,有一个大红利。随着移动互联网的普及和各类传感器的普遍应用,数据的采集成本降低了,我们拥有了大量的底层数据。
这些新数据就是我们这个时代的新石油啊。无论是数据维度的增加,还是精准度的增加,新数据让我们对问题有了更深刻的认识,能指引我们找到更精准的解决方案。
而对于改造城市而言,有哪些新数据呢?太多了,我举几个例子:
第一个,IC公交卡的刷卡数据,这个数据的利用是过去被忽视的。但是如果深入分析,刷卡数据能很好地反映回龙观居民的通勤行为的轨迹。人们什么时间坐车?坐车去哪?要坐多久?有了这些数据,我们就能还原回龙观居民真实的通勤行为。
第二个,手机定位数据,这里可挖掘信息就太多了。比如说,在回龙观里有多少真实的居住人口?他们都是在什么时间段待在回龙观?还有他们用什么手机?这里面的维度就非常多,我就不在这里一一列举了。
看数据还有很多有趣的维度,互联网产品也能记录了大量的城市数据。你可以用大众点评分析城市的餐饮情况,比如回龙观的餐饮高频词是快餐、小吃。相比起其他城区的高频词,你就可以判断这个城区的消费水平不算高。
手机、互联网产品、摄像头这样的传感器积累了大量的原始数据,这些都是我们重新了解世界的富矿。其他行业也迎来了这个机会,关键就是看你能不能利用好这些数据。
接下来,我就跟你说说,在拿到回龙观的数据之后,我是怎么用的。
找到参照系,寻找差异点
刚才我们说了,第一件事是找数据,我做的第二件事,是寻找适合的参照系,来做对比。
怎么来研究回龙观问题呢?我们找到了北京的另一个卫星城区,位于北京东北方向的望京城区,跟回龙观做一个比对。北京的望京城区,它的常住人口也是30万,早年也被诟病是睡城,但这几年城区活力改善得非常明显。我们还是用上面那些观测角度来看看,这两个社区有什么不同呢?
我们先来对比一个大数,这两个城区常住人口都是30万,高峰期地铁的人流量差别有多大?
2018年,北京地铁站,早高峰进站客流量排名前十的车站里,回龙观城区的四个地铁站全部上榜了,四个地铁站分别是:回龙观、霍营、龙泽和回龙观东大街。而望京城区没有一个地铁站进入前十。
值得追问的问题来了:两个地方常住人口差不多,为什么乘坐地铁通勤的人流量差这么多?在城市研究领域,有一个专有名词形容这种现象,叫做职住分离,职就是职场的职,住就是居住的住。意思是说人们的工作地和居住地相距很远,那是不是就说明,回龙观的职住分离现象,要比望京更严重呢?
我们搜集了两地居民的手机定位数据:
我们就发现两地内部通勤的比例,也就是说在本地上班的人的比例,回龙观只有9.4%,而望京有23.7%。望京提供了更多的就业岗位,四分之一的人都在本地上班,而回龙观90%以上的人,都得去其他城区上班。
再看平均通勤距离,回龙观居民平均通勤距离是10.9千米,而望京只有8.6千米。回龙观居民离上班的地方更远。
再对比一些细节数据,两地的居民花多长时间坐地铁?
监测发现,回龙观刷卡进站的早高峰比望京早了15分钟,是早上7点45分就开始了,而望京是8点。晚上回家的时间呢?回龙观的人更晚。晚上望京刷卡出站的高峰是6点一刻到6点半,而住回龙观的居民7点到7点一刻才集中刷卡出站,等于说平均晚了45分钟。
住在回龙观、乘地铁通勤的居民,平均下来比望京的人早出门15分钟,晚到家45分钟,足足多出了1个小时通勤时间。这还没算他们在回龙观站外排队的时间。
在通勤问题上,回龙观居民要比望京居民多花1个多小时,也就少了1个多小时的生活时间。难怪他们感觉身体被掏空了。
听到这你可能还是会觉得,你们这些数据科学家也没什么了不起,只不过是把人们的直观感受,变成了量化的数据嘛。但是接下来再往下听,你就知道数据能起到的作用了。
给出可执行的具体方案
通过收集数据和别的地区做参照比对,我明确了两个关键问题:
第一,回龙观城区内的工作岗位太少;
第二,地铁作为主流通勤方式,让居民们的精力消耗太高。
过去做城市规划可能会笼统地提出一些建议,比如增加就业、多修道路等。但具体怎么落地,其实没有真正的依据,不当的方案还会带来新的问题。
这个时候就需要数据帮我们找到,到底哪个具体地方、哪类人群问题最突出,最需要被解决。
针对第一个问题,应该给回龙观多提供什么类型的工作岗位呢?
我分析了回龙观居民的从业类型,有两类人群最为突出:
第一类是从事文化、商业这类公共服务行业的人。他们占到了总人数的27.5%,而且这类职业是女性占比最高的。他们工作地点也非常分散,散布在北京城的各个角落。
第二类是程序员,也就是所谓的码农,回龙观离码农的聚集地都非常近,比如说著名的北京中关村,还有中关村北面的上地。所以码农们的居住成本也相对较低。
摆在回龙观政府面前就有两个选择,要么多提供公共服务类的工作岗位,要么多提供码农的工作岗位。别忘了,政府的出发点是提升城市的活性,哪个方案更有效?
我先说答案,解决女性就业这个方向更有效。
首先,增加码农的工作岗位对城区的活力没有什么帮助,甚至会让城区的生活品质更差。我们客观的说,码农是没时间消费的,天天都在加班,他们对城区活力没有什么直接贡献。
但解决女性就业就非常不同了。
如果我们让太太更多的在本地就业,她们的通勤时间会变短,女性多出来的时间会干嘛呢?当然是买买买。这就会反过来为本地创造更多的公共服务类的就业机会,形成了一个正向的循环。
这样整个回龙观社区就盘活了。一个女性友好的社区,就是一个有活力的社区。
那我们应该为回龙观设计什么样的就业机会呢?
我们还是来对比一下望京,来看看两地商业的供给和需求两端的情况。
我们可以用手机定位数据来对比望京和回龙观两地的商业供给:回龙观有3家商场,60%都是本地人来消费;而望京有7家,本地消费者只占30%,剩下的70%都是其他城区的居民来消费。这就说明望京的商业水平比较高,可以吸引外部的消费者,这是供给端,我们再来看需求端,考察一下回龙观和望京两地居民的周末行为轨迹。回龙观的人一到周末就往外跑,而望京的人则更多停留在本地活动。很明显,回龙观本地的商业设施,没有满足本地居民的需求。
那他们的什么需求没被满足?我们找找他们周末去哪就知道了。
回龙观往南5公里左右,有一个叫做五彩城的购物中心,这个地方是回龙观居民去得最多的商业中心。五彩城的客流中,20%来自于回龙观。那为什么去五彩城呢?因为五彩城有一些回龙观没有的消费场所,像一些知名连锁餐饮、潮流的消费品牌,亲子项目和一些家居体验业态。
所以,这类商业就是回龙观应该引进的商业业态,它们能够留住更多的女性,无论是吸引这些女性去消费,还是去就业。
再来看第二个问题,通勤时间长的问题。
通过分析地铁的刷卡数据,我们发现回龙观早高峰那一小时的客流,他们的出站地点集中在西二旗、五道口、知春路和上地这么几处,我们发现这些都是互联网公司集中的地方。从数据可以看到,码农是地铁出行的主力人群。
而这些地方到回龙观的距离是在10公里左右,是正常的通勤距离。其中,上班居民最集中的西二旗,离回龙观只有5公里左右。
所以,我们发现了码农们的通勤的直线距离并不远,近的是5公里,远的也在10公里左右。不过他们的通勤时间特别长,因为地铁太拥挤了,体验也很差。那问题明确了,我们该怎么办?
传统的解决方案就是多修路、多修地铁,这些办法除了成本高、实施周期长之外不说,它也很可能没有办法很好地缓解问题。
其实针对5公里左右的短距离通勤,还有一个选择,就是骑自行车。 能不能专门修建一条专用的高速自行车道呢?对于码农来说,他们既能缩短通勤时间,而且还能锻炼身体,一举两得。
高速自行车道,在德国、荷兰、丹麦这些欧洲国家早就有实践。把自行车道修建成封闭式的高架立交道路,和机动车道路区分开来,保证自行车不受机动车的干扰。而且路上不设置红绿灯,只有一些骑行驿站,用来中途休息和维护车辆。
听起来是不是很有创意?
现在这个想法已经不仅仅是创意,已经被北京市政府采纳了。第一期规划路线,从回龙观到上地,全程6.5公里。按照每小时15公里的正常骑行速度计算,未来早高峰时段,骑自行车会成为回龙观居民耗时最短的出行方式,全程通勤时间在半小时左右。
那我们回顾一下,通过数据分析,我们提出了哪些具体解决方案:
第一个是对回龙观的公共服务进行升级。在商业方面建设招募连锁品牌的商业中心,并且利用算法新增公共服务设施、优化设施布局和可达性,这个建议已经在“回天有数”的整体项目规划中了。
第二个是建一条从回龙观到上地的自行车道。
通过这个案例的具体分析,我想你能看到,没有数据的方案和决策,大多都是拍脑门,而数据能给我们的决策提供具体的方向依据。
总结
最后,我们总结一下,你多半不是一个专业的数据科学家,身为外行的你,能怎么用到数据科学家的思维模型呢?
第一,关注那些刚刚出现技术条件,可以把它记录下来的新数据,这些就是当代的新石油,你不利用别人可就利用了。
比如,过去工厂里的零部件出问题了,需要工人一个个去排查,花很长时间还不一定能检查出来。但现在有了数字工厂,在每一个关键零件的地方,都装上了传感器,就能第一时间发现问题,极大地提高了运作效率。
第二,要找对比的参照系。回龙观怎么改善?答案很难找,但如果你找到一个过去的回龙观,就很可能找到方向。这个案例就是找到了望京作为参照。
我们这个时代特别容易嘲笑过气的事物,但过气的事物还有一个特征,就是它完整地经历过,你可能将来要经历的周期发展阶段。比如,在中国研究社会问题我们就应该关注日本,当下日本的老龄化、后工业化问题,可能就是中国几十年之后将会面临的状况。
第三,数据的分析一直要深化到变成可执行的行动。比如在哪建一条自行车道这样的具体方案。不然那就跟过去的数据报告没有区别了,这才是数据科学家提供的独特价值。
我们通常看到的数据报告,往往是连篇累牍,上面充满了饼状图、柱状图、线性图。这给人的感觉就是,把我已经明白的事,换个方式再告诉我一遍。这没有价值,数据分析一定要变成可执行的具体行动。
好,学完了回龙观改造的案例。那么在你自己的工作和生活里面,有没有用数据去解决问题的有价值的案例呢?
欢迎你来跟我分享。