題目:海量資料查詢
開頭:
1.自我介紹;
2.題目切入:
什麼是海量資料查詢?(海量資料,快速,符合要求)
幾個常用場景(搜尋引擎,百度;話單查詢;影像平台,高鐵)
3.展示目錄:架構,案例,平台規劃
4.架構,常用需求的切入:
高并發qps;
全文搜尋(模糊查詢,類似sql like;近義詞;有PDF,WORD,文本等解析能力);
固定查詢(固定字段,可組合查);
靈活查詢(任意字段,随意組合查);
非結構化資料存儲(小檔案,半結構,非結構資料,圖檔視訊之類)
5.hyperbase介紹
來源:基于hbase,hbase基于Google bigtable;
定義:列式,key-value,分布式資料庫;
特性:穩定健壯;多個運維工具針對叢集維護;完善的sql支援(inceptor);
超高并發支援;支援多種索引;高速入庫;高效分析;非結構化支援。
6.search介紹
1.擅長做靈活查詢,全文搜尋;
2.比solr,es優點:做了大量工作,單節點(單執行個體,2T*12)容量增加到15-20T左右;
冷熱資料隔離;提高壓縮比,壓縮速率;高速檢索分析;
堆外記憶體管理:解釋單節點容量能達到20T問題;管理jvm最大30G,索引+segment占用記憶體,把堆記憶體解放
放在堆外,擴充了記憶體,提高了IO效率,減少了GC次數;
支援sql2003标準;
3.另外的工作:基于時空地理資訊的高效處理;
7.關鍵字對應的解決方案
高并發:hyperbase,search(1w,300);
全文搜尋:search;
靈活查詢:search;
固定查詢:hyperbase>search
非結構存儲:hyperbase
8.場景組合:
高并發+固定查詢:櫃面查詢,話單查詢,曆史記錄查詢,交易記錄查詢;
注意點:
hbase和search不适合做join(join需求隻适合小表10W以下,傳回1W以内);
hbase和search都不适合做聚合和排序,除非傳回資料較少
9.案例解決方案
1.挑戰:持續增長資料,資料類型多樣
2.解決方案:TDH
3.效果:硬體成本1/3;千億級資料秒級傳回;PB級别資料的存儲和檢索;時空分析秒級響應
4.框圖:主線:資料源(結構化,非結構化)元件(hyperbase,search),功能,平台,場景應用
10.檢索場景評估:
1.hyperbase:裸容量=原始資料量*(1+20%膨脹)*3副本/3(壓縮率);
2.search:裸容量=原始資料量*(1+100%膨脹)*(1+1)副本;
11.hyperbase性能名額:
1.單個regionserver建議不超過4000*7=28T的存儲容量;
2.bulkload入庫:20-30M/s;
3.API入庫:10M/s;
4.索引入庫:帶1個索引,入庫性能降低20%;
5.rebuild時間:10M/S/機器;
12.search 性能名額:
1.查詢:ms級别;
2.并發:上限300qps;
3.rebuild時間:search不開副本1W/tps,開副本5000/tps;
4.search處理上限:單執行個體15T,開源6T
轉載于:https://www.cnblogs.com/Lxiaojiang/p/9599895.html