TDH-search汇报理解

2023-06-09 16:25:20

题目：海量数据查询

开头：

1.自我介绍；

2.题目切入：

什么是海量数据查询？（海量数据，快速，符合要求）

几个常用场景（搜索引擎，百度；话单查询；影像平台，高铁）

3.展示目录：架构，案例，平台规划

4.架构，常用需求的切入：

高并发qps;

全文搜索（模糊查询，类似sql like；近义词；有PDF,WORD,文本等解析能力）；

固定查询（固定字段，可组合查）；

灵活查询（任意字段，随意组合查）；

非结构化数据存储（小文件，半结构，非结构数据，图片视频之类）

5.hyperbase介绍

来源：基于hbase，hbase基于Google bigtable;

定义：列式，key-value,分布式数据库；

特性：稳定健壮；多个运维工具针对集群维护；完善的sql支持（inceptor）；

超高并发支持；支持多种索引；高速入库；高效分析；非结构化支持。

6.search介绍

1.擅长做灵活查询，全文搜索；

2.比solr，es优点：做了大量工作，单节点（单实例，2T*12）容量增加到15-20T左右；

冷热数据隔离；提高压缩比，压缩速率；高速检索分析；

堆外内存管理：解释单节点容量能达到20T问题；管理jvm最大30G，索引+segment占用内存，把堆内存解放

放在堆外，扩展了内存，提高了IO效率，减少了GC次数；

支持sql2003标准；

3.另外的工作：基于时空地理信息的高效处理；

7.关键字对应的解决方案

高并发：hyperbase，search（1w,300）;

全文搜索：search；

灵活查询：search；

固定查询：hyperbase>search

非结构存储：hyperbase

8.场景组合：

高并发+固定查询：柜面查询，话单查询，历史记录查询，交易记录查询；

注意点：

hbase和search不适合做join（join需求只适合小表10W以下，返回1W以内）；

hbase和search都不适合做聚合和排序，除非返回数据较少

9.案例解决方案

1.挑战：持续增长数据，数据类型多样

2.解决方案：TDH

3.效果：硬件成本1/3；千亿级数据秒级返回；PB级别数据的存储和检索；时空分析秒级响应

4.框图：主线:数据源（结构化，非结构化）组件（hyperbase，search），功能，平台，场景应用

10.检索场景评估：

1.hyperbase：裸容量=原始数据量*（1+20%膨胀）*3副本/3(压缩率)；

2.search：裸容量=原始数据量*（1+100%膨胀）*（1+1）副本；

11.hyperbase性能指标：

1.单个regionserver建议不超过4000*7=28T的存储容量；

2.bulkload入库：20-30M/s；

3.API入库：10M/s；

4.索引入库：带1个索引，入库性能降低20%；

5.rebuild时间：10M/S/机器；

12.search 性能指标：

1.查询：ms级别；

2.并发：上限300qps;

3.rebuild时间：search不开副本1W/tps,开副本5000/tps；

4.search处理上限：单实例15T，开源6T

转载于:https://www.cnblogs.com/Lxiaojiang/p/9599895.html

TDH-search汇报理解

继续阅读

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

ansible配置文件说明及ad hoc命令

vsftpd dead but subsys locked 的解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

nginx 安装错误信息解决

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark