天天看点

TDH-search汇报理解

题目:海量数据查询

开头:

1.自我介绍;

2.题目切入:

什么是海量数据查询?(海量数据,快速,符合要求)

几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)

3.展示目录:架构,案例,平台规划

4.架构,常用需求的切入:

高并发qps;

全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);

固定查询(固定字段,可组合查);

灵活查询(任意字段,随意组合查);

非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)

5.hyperbase介绍

来源:基于hbase,hbase基于Google bigtable;

定义:列式,key-value,分布式数据库;

特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);

超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。

6.search介绍

1.擅长做灵活查询,全文搜索;

2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;

冷热数据隔离;提高压缩比,压缩速率;高速检索分析;

堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放

放在堆外,扩展了内存,提高了IO效率,减少了GC次数;

支持sql2003标准;

3.另外的工作:基于时空地理信息的高效处理;

7.关键字对应的解决方案

高并发:hyperbase,search(1w,300);

全文搜索:search;

灵活查询:search;

固定查询:hyperbase>search

非结构存储:hyperbase

8.场景组合:

高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;

注意点:

hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);

hbase和search都不适合做聚合和排序,除非返回数据较少

9.案例解决方案

1.挑战:持续增长数据,数据类型多样

2.解决方案:TDH

3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应

4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用

10.检索场景评估:

1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);

2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;

11.hyperbase性能指标:

1.单个regionserver建议不超过4000*7=28T的存储容量;

2.bulkload入库:20-30M/s;

3.API入库:10M/s;

4.索引入库:带1个索引,入库性能降低20%;

5.rebuild时间:10M/S/机器;

12.search 性能指标:

1.查询:ms级别;

2.并发:上限300qps;

3.rebuild时间:search不开副本1W/tps,开副本5000/tps;

4.search处理上限:单实例15T,开源6T

转载于:https://www.cnblogs.com/Lxiaojiang/p/9599895.html

继续阅读