TDH-search彙報了解

2023-06-09 16:25:20

題目：海量資料查詢

開頭：

1.自我介紹；

2.題目切入：

什麼是海量資料查詢？（海量資料，快速，符合要求）

幾個常用場景（搜尋引擎，百度；話單查詢；影像平台，高鐵）

3.展示目錄：架構，案例，平台規劃

4.架構，常用需求的切入：

高并發qps;

全文搜尋（模糊查詢，類似sql like；近義詞；有PDF,WORD,文本等解析能力）；

固定查詢（固定字段，可組合查）；

靈活查詢（任意字段，随意組合查）；

非結構化資料存儲（小檔案，半結構，非結構資料，圖檔視訊之類）

5.hyperbase介紹

來源：基于hbase，hbase基于Google bigtable;

定義：列式，key-value,分布式資料庫；

特性：穩定健壯；多個運維工具針對叢集維護；完善的sql支援（inceptor）；

超高并發支援；支援多種索引；高速入庫；高效分析；非結構化支援。

6.search介紹

1.擅長做靈活查詢，全文搜尋；

2.比solr，es優點：做了大量工作，單節點（單執行個體，2T*12）容量增加到15-20T左右；

冷熱資料隔離；提高壓縮比，壓縮速率；高速檢索分析；

堆外記憶體管理：解釋單節點容量能達到20T問題；管理jvm最大30G，索引+segment占用記憶體，把堆記憶體解放

放在堆外，擴充了記憶體，提高了IO效率，減少了GC次數；

支援sql2003标準；

3.另外的工作：基于時空地理資訊的高效處理；

7.關鍵字對應的解決方案

高并發：hyperbase，search（1w,300）;

全文搜尋：search；

靈活查詢：search；

固定查詢：hyperbase>search

非結構存儲：hyperbase

8.場景組合：

高并發+固定查詢：櫃面查詢，話單查詢，曆史記錄查詢，交易記錄查詢；

注意點：

hbase和search不适合做join（join需求隻适合小表10W以下，傳回1W以内）；

hbase和search都不适合做聚合和排序，除非傳回資料較少

9.案例解決方案

1.挑戰：持續增長資料，資料類型多樣

2.解決方案：TDH

3.效果：硬體成本1/3；千億級資料秒級傳回；PB級别資料的存儲和檢索；時空分析秒級響應

4.框圖：主線:資料源（結構化，非結構化）元件（hyperbase，search），功能，平台，場景應用

10.檢索場景評估：

1.hyperbase：裸容量=原始資料量*（1+20%膨脹）*3副本/3(壓縮率)；

2.search：裸容量=原始資料量*（1+100%膨脹）*（1+1）副本；

11.hyperbase性能名額：

1.單個regionserver建議不超過4000*7=28T的存儲容量；

2.bulkload入庫：20-30M/s；

3.API入庫：10M/s；

4.索引入庫：帶1個索引，入庫性能降低20%；

5.rebuild時間：10M/S/機器；

12.search 性能名額：

1.查詢：ms級别；

2.并發：上限300qps;

3.rebuild時間：search不開副本1W/tps,開副本5000/tps；

4.search處理上限：單執行個體15T，開源6T

轉載于:https://www.cnblogs.com/Lxiaojiang/p/9599895.html

TDH-search彙報了解

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark