天天看點

技術創業難?看彙合營銷如何玩轉大資料與機器學習

自開始大資料創新案例探索之後,彙合營銷(杭州彙江容海網絡有限公司)是筆者走進的第二家公司,在拜訪過程中, 通過ceo周鵬與cto歐陽明對筆者了解到,在這個技術普惠的時代,彙合營銷的發展之路鋪設與架構。

<b></b>

<b>彙合營銷大資料規模與挑戰</b>

對于任何一家創業公司來說,成本與-效率都是一個不得不考慮的問題——周鵬。

彙合營銷主要提供彙合dsp和彙合dmp兩個平台,為電商為主的廣告主提供推廣服務。此外,在接受商家的精準化需求之後,根據具體的業務場景,為電商廣告主提供精準化的營銷廣告。在整個過程中,周鵬表示,建構一個完善且能夠持續服務的大資料平台成為關鍵,這需要大量的人力與物力;此外,這個平台還需要有足夠的“彈性”來滿足業務:既要撐得住雙11期間的流量峰值,又要能夠在平時做好運維成本控制。

峰值期間,彙合營銷每天需要收集、分析和存儲20多億條的訪客浏覽軌迹;同時,還需要根據使用者需求在億級日志表中做秒級查詢——歐陽明。

縱覽彙合營銷整個大資料系統,在技術挑戰上,歐陽明主要歸結于以下三條:

<b>大量的資料統計。</b>彙合營銷每天收集到的資料,多的時候一天有20多億訪客浏覽軌迹,在dmp業務系統中,需要對每個訪客的浏覽内容進行分析,打上相應标簽并進行統計;同時,資料分析師每天也需要産生各種報表,幫助客戶進行廣告優化。大量的資料存儲、統計和大量的業務需求,這使得開發過程中,既要保證高效率,同時也要降低成本。

<b>實時大資料查詢。</b>廣告商在背景的推廣組選擇标簽時,系統需要在毫秒級的時間内顯示标簽的使用者量并預估展現量資訊,由于使用者選擇的标簽一般都會比較多、條件比較複雜,并且每個标簽的使用者也可能重複,進而無法在使用者選擇标簽前做預計算,必須每次在億級日志表中查詢,而且要保證平均延遲不超過1秒。

<b>ctr預估。</b>ctr預估能夠決定廣告的精準程度和帶來的收益,是廣告競價系統中一個比較核心的部分。在彙合營銷,我們使用業内優秀的大資料架構和機器學習算法,例如場感覺分解機模型(ffm)、邏輯回歸算法等,來訓練收集到的tb級資料,将訓練好的模型應用于ctr預估,提升了廣告投放的精準度,進而有效提升廣告效果。 

是以在考量了技術與資源之後,彙合營銷選擇了阿裡雲數加,通過雲服務來取得技術與-效率優勢,周鵬總結道。

<b>彙合營銷大資料系統架構</b>

開發效率與使用門檻促促成了這個基于雲的架構,最大程度減少了運維,即開即用,避免資源浪費——歐陽明。

歐陽明表示,數加有完善的大資料解決方案,能夠與阿裡雲其他産品無縫對接。彙合營銷使用了數加的大資料套件、odps、datav和分析型資料庫,也嘗試了機器學習平台。具體參照下方架構圖,通過阿裡雲數加産品确定的邊界,整個系統架構非常清晰:

技術創業難?看彙合營銷如何玩轉大資料與機器學習

現在彙合營銷大部分離線統計需求都在大資料套件中開發,将資料使用做到非常簡單,隻要能夠寫sql,就可以導出自己需要的報表,滿足了大部分的業務需求。此外,分析型資料庫能夠滿足在億級資料中做毫秒級查詢,在資料分析方面,是一個非常不錯的工具。在使用數加之前,彙合營銷曾搭建了spark和hadoop,但每次資料報表都需要開發人員來導出,而且在維護、資源使用上都需要很好地平衡,使用和維護成本相對比較高。

而數加大大降低了資料使用門檻、提高開發效率,現在彙合營銷的資料分析團隊(非開發人員)都能夠獨立完成大部分的資料報表需求。此外,數加的按需計費避免了資源空閑,從年初的對比來看,數加在滿足同等業務需求基礎上能夠減少一半的支出,有效地節約了成本開支,幫助創業型企業快速成長。