天天看點

TDH-search彙報了解

題目:海量資料查詢

開頭:

1.自我介紹;

2.題目切入:

什麼是海量資料查詢?(海量資料,快速,符合要求)

幾個常用場景(搜尋引擎,百度;話單查詢;影像平台,高鐵)

3.展示目錄:架構,案例,平台規劃

4.架構,常用需求的切入:

高并發qps;

全文搜尋(模糊查詢,類似sql like;近義詞;有PDF,WORD,文本等解析能力);

固定查詢(固定字段,可組合查);

靈活查詢(任意字段,随意組合查);

非結構化資料存儲(小檔案,半結構,非結構資料,圖檔視訊之類)

5.hyperbase介紹

來源:基于hbase,hbase基于Google bigtable;

定義:列式,key-value,分布式資料庫;

特性:穩定健壯;多個運維工具針對叢集維護;完善的sql支援(inceptor);

超高并發支援;支援多種索引;高速入庫;高效分析;非結構化支援。

6.search介紹

1.擅長做靈活查詢,全文搜尋;

2.比solr,es優點:做了大量工作,單節點(單執行個體,2T*12)容量增加到15-20T左右;

冷熱資料隔離;提高壓縮比,壓縮速率;高速檢索分析;

堆外記憶體管理:解釋單節點容量能達到20T問題;管理jvm最大30G,索引+segment占用記憶體,把堆記憶體解放

放在堆外,擴充了記憶體,提高了IO效率,減少了GC次數;

支援sql2003标準;

3.另外的工作:基于時空地理資訊的高效處理;

7.關鍵字對應的解決方案

高并發:hyperbase,search(1w,300);

全文搜尋:search;

靈活查詢:search;

固定查詢:hyperbase>search

非結構存儲:hyperbase

8.場景組合:

高并發+固定查詢:櫃面查詢,話單查詢,曆史記錄查詢,交易記錄查詢;

注意點:

hbase和search不适合做join(join需求隻适合小表10W以下,傳回1W以内);

hbase和search都不适合做聚合和排序,除非傳回資料較少

9.案例解決方案

1.挑戰:持續增長資料,資料類型多樣

2.解決方案:TDH

3.效果:硬體成本1/3;千億級資料秒級傳回;PB級别資料的存儲和檢索;時空分析秒級響應

4.框圖:主線:資料源(結構化,非結構化)元件(hyperbase,search),功能,平台,場景應用

10.檢索場景評估:

1.hyperbase:裸容量=原始資料量*(1+20%膨脹)*3副本/3(壓縮率);

2.search:裸容量=原始資料量*(1+100%膨脹)*(1+1)副本;

11.hyperbase性能名額:

1.單個regionserver建議不超過4000*7=28T的存儲容量;

2.bulkload入庫:20-30M/s;

3.API入庫:10M/s;

4.索引入庫:帶1個索引,入庫性能降低20%;

5.rebuild時間:10M/S/機器;

12.search 性能名額:

1.查詢:ms級别;

2.并發:上限300qps;

3.rebuild時間:search不開副本1W/tps,開副本5000/tps;

4.search處理上限:單執行個體15T,開源6T

轉載于:https://www.cnblogs.com/Lxiaojiang/p/9599895.html

繼續閱讀