天天看点

解决中级数据量(千万级、亿级)的数据检索方案探索

背景

在目前所有的系统中,不管是何种架构都需要存储数据,常规的管理系统在两三年之后,数据往往是百万级别,甚至小千万级别的。涉及到制造业中的生产信息,运输业中的gps信息等每天会大批量产生的场景,往往数个月就会到达上亿级别的数据。这种数据又不是传统的大数据,几十TB甚至PB,这种中间层面的数据该怎么处理呢?有两点要求,一方面满足存储,一方面满足检索的能力。

解决方案

存储的问题,其实是很好解决的,存数据库,存各种fs,关键是怎么把数据从数据库中读取出来。

中间数据量快速检索

对于大几百万,小几千万的数据,这种量级的数据,通过索引就能做很大的优化。通过把查询的语句进行分析,建立对应的索引,让检索功能都尽量走索引,是一种很常规的解决方案。尤其是针对mysql这种关系型数据库,加上索引效果还是很明显的。这种策略的本质是空间换时间,因为索引的本质还是一种数据结构形成的文件,需要占用磁盘空间,通过空间换时间的方式来实现数据检索速度的提升。加了索引之后,需要提升你的sql水平,让你的sql走索引,避免全盘搜索的这种情况,从技术的角度就解决了很大一部门了。

套路性答案

实战案例·策略表