天天看點

大資料應用之雙色球算獎平台總體設計大綱篇一

作者:張子良

版權所有,轉載請注明出處

引子:雙色球延期開獎,你hold住了嗎

  福利彩票走進百姓生活,每期的500w大獎吸引了千萬彩民的眼球和關注,備受争議的雙色球延期開獎也成了争議的焦點,成為繼12306之後,又一個站在風口浪尖的悲催兒。黑幕說,紅會說,各種說甚嚣塵上。it人隻做技術事,至于類似美美卡裡究竟幾個零,一套内衣值幾多銀子的問題,還是交給幹爹們去撕扯吧。當然福彩中心是不是紅會,還是交給時間來證明吧。

一 概述

  本文作者試圖從純技術的角度解決雙色球延遲開獎的問題,不考慮其他因素,用最新的雲計算技術建立一套海量資料處理的技術解決方案。同時考慮到把這種想法付諸實踐,搞一個開源海量資料處理平台,以雙色球算獎問題,作為一個業務應用案例,指引我們前進的方向。本文是這一解決方案的第一篇,目的在于把整個平台目前面臨的技術問題和未來發展方向做一個綱領性的界定,考慮到一個人的能力畢竟是有限的,群衆的力量是無窮,本文僅定位于抛磚引玉,希望能夠得到各位技術同行的支援和關注,讓大家一起來共同完成整個解決方案的設計。開源社群的兄弟們,頂一個吧。

二 綱要

資料規模評估篇

根據雙色球曆史銷量資料,評估存儲雙色球曆史購彩資料所需要的資料規模,按照全部存儲、一年期存儲、單期存儲規模進行估算。

曆史資料存儲篇

根據雙色球曆史投注資料(每一注的選号明細),按照存儲時間的長短,評估存儲雙色球曆史投注明細資料所需要的存儲容量。根據其業務特點和存儲容量,探讨實際采用的存儲方案,是檔案存儲,還是資料庫存儲,亦或者是其他的存儲方案。針對目前期算獎需要,評估存儲該規模下的,該類型的資料所需要的記憶體空間或硬碟空間。

實時資料算獎篇

面對2~3億注的資料量級,7個資料項,6個中獎級别的設定,我們需要采用什麼樣的存儲方式,存儲待算獎期次的投注明細;我們需要采用什麼樣的算法,算法的時間複雜度和空間複雜度如何?計算一期中獎資料需要的時間和空間是多少?給出分省中獎統計資料的時間又是多少?

開獎算獎算法篇

因為資料量級的問題,每一期的投注規模在2~3億注之間,這樣一個計算規模的資料量級,加上獎項級别的設定,算法的時間複雜度要求還是很高的。在這一篇需要針對目前的資料規模,給出一個優化的算法,并能夠給出按照該算法進行,特定的硬體配置環境下,需要的計算時間和計算頻次。以及相關算法的設計原理和規則。

資料分析bi篇

關于曆史投注明細資料的應用,商業價值的提煉和資料分析,目前還沒有明确的概念,期望參與的園友能夠給出答案。其一,資料可以用來做什麼?其二 資料應該怎麼來用?其三 這些應用将會帶來什麼樣的商業價值。

以上内容僅為作者一人之淺見,算是從業務劃分的角度,将要解決的問題,進行了一次分類。遺漏部分,需要各位園子裡的兄弟指正完善,謝謝各位了。至于每一部分的内容結構暫時還沒有具體的東西出來,待完善總體大綱後,再單獨征詢各位的意見和建議。

三 招募

    考慮到解決方案的設計和開源平台的開發,特征集對本項目感興趣并在并行計算和大資料處理方向有獨到見解的同仁參與進來。讓大家為大資料的應用技術共同努力,在實踐中進步,在進步中成熟。建了一個技術交流qq群,群号:307807112

彩票算獎隻是一個引子,真正要做的是海量資料的計算和分析,歡迎拍磚,感興趣的話,請給個推薦,并暢所欲言。

繼續閱讀