基于數加，全群眾籌平台開啟大資料智能時代

大家下午好，我是輕松籌cto李汐，歡迎來到上海雲栖大會的大資料專場。

今天我要和大家分享的是：基于數加平台，輕松籌如何開啟大資料時代。

今天，主要和大家從以下三個方面來分享：

背景（why）

輕松籌做大資料的目的是希望

真正給使用者帶來價值，給企業帶來增長

輕松籌于2014年9月成立，經過一年的時間在2015年9月注冊使用者達到100萬，2016年9月經過2年時間注冊使用者突破1億，并入選民政部網絡募捐平台。

輕松籌，是從國外kickstarter、indiegogo的傳統衆籌模式中推陳出新，在中國演變發展為基于社交圈的全群眾籌平台，并成功在中國普及了衆籌這一概念。

成立至今，輕松籌經曆了指數級增長，到今天，我們的手機号注冊使用者已經超過1.6億，意味着每7個上網使用者裡就有1個人使用過輕松籌。

輕松籌每天有300gb的結構化資料産生，資料量以後還會越來越大，要應對的并發量也會越來越多。是以，一個支援pb級以上的資料庫來存儲這些海量資料并且能夠支援及時查詢，成了必需。

去年一年的時間，輕松籌幫助超過13.8萬個大病家庭解決了燃眉之急。

數十家具有公募資格的基金會在輕松籌共籌集超過400萬。

我們希望籌款能幫助每一位病人重獲健康，同時我們也希望解決更多老百姓的社會保障問題，2016年4月18日我們首創了大病互助産品，每人隻需3元錢就可以加入互助計劃，目前我們已有735萬會員加入。（大病互助産品解釋：如果其中一人檢查出30種大病中的一種，就可以獲得30萬的救助保障金，目前每人隻需均攤5分錢。）

初步估算，1個月以後，輕松籌的互助行動将會有10000000會員，假設每天有20個人需要救助，那麼我們每天要生成2億行交易資料；面對如此龐大的資料存儲和查詢，我們需要建立一個穩定、安全，有保障的大資料中心。

有資料、但是要怎麼用資料？我們有以下設想：

信任透明：

如何讓項目（每一次救助我們結構化存儲為項目）更加公開透明？我們作為平台方需要搭建好發起人和支援者良好的溝通管道，當支援者對項目産生質疑時，我們通過項目發起人的進展、資金公示，舉報資料來源，通過大資料手段實時抓取微網誌、微信公衆号、媒體等資料源，建立公衆趨勢分析功能，快速獲知整個項目情況，為後續追蹤提供可靠的資料支撐！

風險監控：

如何保證每一個項目的真實可信，每一次籌款金額是否合理？我們建立了完整的病理庫，一種大病某個分類在某個地區某個醫院的醫療費用範圍，其中還考慮各種其他因素，比如病人是否持續繳納社保、病人家庭的固定資産情況。通過大資料、人工智能算法等技術計算出風險指數，給予發起人和支援者一個合理籌款的範圍。

定向幫助：

如果讓項目獲得更多的支援金額？經典的6度人脈理論告訴我們可以通過6個人的關系聯絡到世界上任何一個人，經過我們的大資料分析，我們如果精準推薦給病人的三度人脈幫助其傳播，能增加大概30%的籌款金額；

愛心指數：

如何滿足愛心人士的存在感和榮譽感？我們創新了愛心值這個概念，通過多元度給每位支援者計算出愛心值，他們身上會被貼上“全省好人代表”或者是“聯合國愛心大使”的标簽，最終我們希望愛心值能類似于支付寶芝麻信用分那樣實作征信的作用，可以授信借貸、租車（比如支付寶花呗借貸、共享單車租車，愛心值越高，可以借貸越高或者免費騎車）等提供給第三方使用；

為什麼要做大資料？

在我看來，将資料應用到産品和業務上，給使用者帶來價值，給公司帶來增長，才是我們做大資料的真正目的。

方案（how）

利用hadoop自建大資料平台 vs 基于阿裡雲數加平台

要做大資料，但是怎麼做？輕松籌面臨以下幾個問題：

1、缺乏大資料經驗，挖坑、填坑是一個非常痛苦的事情。

業務在前面一直沖，我經曆過1星期不睡覺一直擦屁股的事情。如果大家玩王者榮耀都知道每個星期的戰報裡那個神坑隊友。

然而有了經驗後則不同，它将具備先發優勢，站在巨人的肩膀上，至少離成功更進一步。是以，我們需要擁有豐富的大資料項目經驗的靠譜團隊給我們支援。

2、使用者行為埋點資料不全面。雖然市面上有百度統計、友盟、talkingdata等産品，但通過這些産品，我們隻能看到局部報表資料，沒法做到精準查詢，而且明細資料也托管在别人手裡，相當于我們的資料資産命脈在别人手裡，這個是我們的痛點。

3、業務資料查詢慢，傳統結構資料分散有mysql，mongodb，日志檔案等多種形式，有的業務查詢需要避開業務高峰期甚至sql查詢時間要耗上1個晚上，這對于我們産品和業務的發展是非常不利的。我們需要在不影響業務正常發展的前提下，來做大資料的開發和應用。

具體該如何做？我們構想了2個計劃，一是自建大資料系統；二是在成熟的産品基礎上進行開發和應用；

自建系統：

即自己用開源的hadoop等搭建一套大資料平台。首先需要招聘能做這件事的人才，初步估算需要2個月時間，實際上我們花了好幾個月也沒有找到負責人。去矽谷見了一圈比如uber、linkedin大資料團隊、國内也找了bat做大資料的人，但是很難找到真正适合創業階段的人。

團隊建設也是非常難，如果沒有核心的大資料負責人，很多技術人員來了找不到認同感，人員流動性非常大，最後會變成即使想做但還是做不了。穩定下來至少半年時間過去了。

大資料方案具體實作時間保守估計需要5個月甚至更長，因為沒有底層基礎，是以在這個過程中，踩坑在所難免。

1年時間下來，保守估計最終可能隻完成工程以及小部分實驗性産品。

但是大資料講的不是概念，而是要用起來，還要用活；是以這個方案實際看起來更像一個理想化的工程方案，而且耗時長，對于創業公司來說，時間就是金錢，我們等不起。

是以，我們最終選擇做大資料的方式如下：

平台選擇依托阿裡雲數加平台：數加是阿裡多年實踐經驗沉澱的産品，成熟、穩定、開箱即用，像輕松籌這樣的創業型公司，選擇數加，是一個節省時間、金錢成本的明智選擇。

服務商，我們選擇的是袋鼠雲：之是以選擇袋鼠雲，是因為在大資料項目之前，我們這邊已經和袋鼠雲有了相關合作，主要做資料庫分布式架構設計，分庫分表設計，袋鼠雲有良好的服務态度和技術實力，對此，我們非常信任。同時袋鼠雲的cto江楓就是原來數加團隊技術負責人之一，袋鼠雲是數加首個金牌合作夥伴，他們有成熟的大資料解決方案，對數加平台以及資料開發和應用了解深刻。

這樣一來，我們便可以快速形成成熟的大資料體系，并且能在實戰中建立自己的大資料團隊，網際網路公司都是輕資産，輕裝上陣，才能跑得更快。

我們最終采用了袋鼠雲提供的大資料架構，如下圖，這是一個通用的大資料架構：

業務資料通過資料同步同步到maxcompute中。訂單類資料，每10分鐘同步一次，其它的資料，每天同步一次。

行為資料，就是使用者的點選、購買等行為日志資料，通過袋鼠雲的雲日志産品采集同步到maxcompute中。資料的延遲在一分鐘以内。

在maxcompute中，将業務資料和行為資料打通。在此基礎上，進行關系鍊分析、畫像分析、統計分析等應用。

關系鍊分析：是想知道，籌款的傳播情況。

畫像分析：是想了解，愛心人士的捐款偏好。

統計分析：是生産成規報表，提出基礎資料支援

最後，再将資料通過可視化大屏進行實時展現，并在quickbi上生成bi報表。

我們期望方案能夠實作資料的存、通、用，最終實作籌款者和愛心人士的更好連接配接。

收獲（what）

實時資料可視化，實作資料化營運

資料大屏

可以實時呈現業務資訊，起到實時監控，支撐更快速、更靈活的資料決策的作用。

bi報表

通過将業務資料和行為資料結合在一起，為籌款項目的精細化營運提供資料支援。

比如，可以了解某一個項目的目前的籌款狀态，籌款金額趨勢，籌款人數的趨勢，管道的轉換率。

通過這些資訊，我們了解到，這個項目是否需要推送到首頁、工作号等管道，讓更多的人知道這個項目。

同時，我們統計各個管道的捐款轉化率，捐款占比。通過對這些分析，提出一些對産品的改善建議。

通過bi報表，讓更多人使用資料，養成了對資料的使用習慣；同時，也提出了更多的報表需求；我們做決策不再是拍腦袋式的，而是根據真實資料的分析結果做更科學的決策。

這樣，我們最終一步步走向資料化營運。

我們現有1.6 億使用者，每周在大資料平台生成2t的資料量。

基于阿裡雲平台，依靠我們的服務商袋鼠雲，我們隻需2個月便建成了自己的大資料中心，每月的資源花費<1萬元。

通過這一系列的資料，我們認為，我們當初的選擇是正确的。

最後，再升華一下，輕松籌做出的種種努力，都是為了我們最根本的願景和使命：

解決全中國絕大多數老百姓的健康和保障問題

基于阿裡雲，依托合作夥伴的幫助，我們更有信心，也更容易完成我們的願景。

-end-

基于數加，全群眾籌平台開啟大資料智能時代 | 上海雲栖

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希