大資料分析中Redis怎麼做到220萬ops

2018-01-15 23:50:00

大資料時代，海量資料分析就像吃飯一樣，成為了我們每天的工作。為了更好的為公司提供營運決策，各種抖機靈甚至異想天開的想法都會緊跟着接踵而來！業務多變，決定了必須每天修改系統，重新跑資料，這就要求極高的海量資料讀取和存儲速度！

公司每天增加幾億行的業務日志資料，我們需要從中分析出各種次元的業務畫像。經過很長時間的摸索，選擇了Redis作為讀寫資料的緩存。

1，開發平台，C#Net，寫Windows服務抓取原始日志資料，合并精簡壓縮後，寫入Redis叢集。

2，各業務系統從時間次元上周遊Redis緩存資料，逐行分析處理，中間結果和最終結果寫入Redis。

3，另一套Windows服務抓取Redis裡的結果資料，儲存回資料庫。這裡有點像MQ的工作方式。

實際上，第一步隻有一套系統，這是資料基礎。第二第三一般每個子系統都有一對。甚至A系統的結果直接通路B系統放在Redis中的結果資料。

整體上看起來耦合度有點高，但是這一套架構得到了極高的速度，單個子系統執行個體每秒鐘可處理1萬到10萬個訂單！并且是很多套子系統同時工作，單一子系統因業務原因不會吃完全部Redis性能。單獨對某一台Redis伺服器做壓力測試，最高得到了222萬ops的速度，測試的是比較簡單的業務，統計滿足某種業務規則的訂單總數。

為何需要這麼高速度？？

業務規則一旦改變，修改程式後，往往需要重新跑最近一周什麼一個月的曆史資料。如果每天改幾次呢？如果趕上雙十一旺季，太慢的速度恐怕連實時資料都趕不上。

Redis怎麼做到220萬ops

1，Redis是單線程模型，是以32核心伺服器安裝32個執行個體

2，資料分片，key散列後均分到幾十個執行個體上

3，關閉持久化，運維和Linux保證可靠性

4，控制好資料包大小，高性能網絡通信最忌收發大量小包，控制在1400位元組附近最佳，最差也要pipeline

5，其它在網上能輕易找到的細小技巧

為什麼不用資料庫？？

經過大量驗證，同樣32核心伺服器，資料庫3巨頭一般得到20000qps的查詢速度和接近10000tps的寫入速度。這是按照單表幾百萬資料有兩個索引的情況測試。如果資料達到幾千萬上億，再多兩個索引，讀寫同時進行，那麼速度隻剩下四分之一不到。真真一個慘字！

大資料分析，有很多是臨時資料，需要合并、疊加、去重等等，它們的生命周期不長，一般24小時或48小時，也有不少是兩三個小時，關鍵是資料量還特别大，每天幾千萬很常見。這類資料，寫資料庫是很不合适的。

而使用Redis，一台32U512G機器，可以裝下一個月幾十億經過壓縮處理的曆史資料，資源占用在50%上下。

我是大石頭，打1999年起，18年老碼農。目前在物流行業從事資料分析架構工作。歡迎大家一起C#大資料

我不相信神話，我隻相信汗水！我不相信命運，我隻相信雙手！

大資料分析中Redis怎麼做到220萬ops

繼續閱讀

禁止ubuntu系統彈出報錯界面

Mac｜Windows系統本地照片自動上傳到伺服器

MySQL的4種隔離級别？出現問題

Ubuntu Linux下Apache的配置檔案

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

samba伺服器的功能

登入plsql 報錯 the account is locked --使用者被鎖

【Linux】UDP廣播封包接收速率問題

SequoiaDB巨杉資料庫C++驅動概述

Linux裝置模型（中）之上層容器

PowerPC平台 Linux移植三