易點天下CTO 王一舟
本文講述了Yeahmobi作為一家全球化的智能營銷服務商所遇到的挑戰和大資料在應對這些挑戰時所發揮的作用。
Yeahmobi是一家以技術驅動的全球智能營銷服務公司,公司主要提供的服務包括了效果營銷、品牌服務,以及各個垂類的綜合性的營銷解決方案。公司主要幫助有全球化視野和需求的客戶,完成在全球範圍内的使用者擷取、品牌宣傳跟提升,以及商業變現等關鍵性的一些訴求。公司在廣告主端主要服務的行業包括了跨境電商,遊戲、工具應用、社交、生活應用、金融以及旅遊等多個不同的行業。在媒體端公司也對接了包括FaceBook、Twitter、Instagram在内的一系列主流的頭部媒體,以及廠商OEM的流量,包括開發者的中長尾流量,還有rtv類的exchange的流量,基本做到了全球流量的一個全覆寫。在對接完兩端的需求及供給之後,公司通過一系列專業的服務和自研的智能化平台來去進行兩端的業務撮合,去實作精準營銷、效果營銷,以及最終幫助客戶達成它的全球化訴求。

在數字營銷廣告業務的執行過程當中,為了實作這種統一的全球數字資産的一個治理,實際上我們是需要面對幾個不同的挑戰的。
第一點就是由于我們服務的國家分布較廣,為了實作服務品質的一緻性,我們首先要實作不同區域的本地化的部署,是以在全球範圍内的部署是我們必須去做到的一項工作内容,随之而來的就是由于本地化的部署,原生資料生成時會分布在全球不同的區域,統一的資料治理就需要完成跨洲際的資料統一采集,以及收歸之後的統一的管理,那麼在網絡以及存儲的多個方面,會提出更高的要求。這是有關全球網絡的方面。
第二點是由于我們覆寫了全球超過40億的網際網路使用者,是以首先在業務高峰期的時候,我們要接受超過每秒百萬次的業務請求,是以我們對于每一個資料中心及節點的并發處理能力要求是非常之高的。其次,由于全球不同國家跟區域網際網路使用者在當地時間的行為有波峰波谷,在業務這個量相對較小的時候,我們也需要去實作本地服務能力的縮容,以實作成本的節約。
第三點就是在如此龐大的資料規模之下,我們這個資料驅動業務不是以采集資料作為最終目标,而是以資料如何去進行運算和反哺最後的業務決策,去真正幫助這個廣告主以更低的成本去實作使用者擷取為目标的。是以在如此龐大的資料規模之下,如何能夠有效的進行實時和離線的運算,給業務以及相關的智能系統以輔助和支撐,也是至關重要的一個環節。
我們剛才其實有提到,我們需要在全球各個國家,特别是各個大洲做到本地化的部署,以實作就近服務去提高服務的品質。我們在對資料中心的選取過程當中是有比較嚴格的要求的。
一方面出于自身内部産品的和運維的需求,我們需要不同的資料中心内在的雲原生服務的能力一緻,且業務的可靠性和資源的可靠性是有足夠的保證的。其次我們需要保證各個資料中心對周邊使用者的輻射,網絡品質是可靠穩定且高效的。
另一方面由于我們需要同時啟用數10個不同的資料中心,那麼在資料中心之間的資料通信,特别是資料的收集、采集、實時分析,出于業務名額的要求,比如說我們在歸因場景下要求是毫秒級的歸因統計以及分鐘級的實時報表,那麼在不同資料中心之間的網絡的可靠性上就會有非常嚴格的要求。在這點上阿裡雲其實給了我們很多的支援跟幫助,我們基本上啟用了阿裡雲所有的資料中心,以滿足我們對全球化業務的需求。
在滿足了基礎設施要求之後,我們的廣告可以正常的投遞并且進行統計分析。那麼下一步就是我們如何更好的去利用我們所設計跟采集到的各類資料,最大化這些資料的價值,要知道其實廣告這個業務它的資料量級是相對來說較為龐大的,以我們的業務為例,我們日均每秒的新資料寫入量大概是在20萬左右,這是一個均值,高峰期的話可能會在數百萬的量級,那麼每天落盤的日志量也在接近20個tb左右,這些資料不是圖檔視訊這些本身就是高存儲的檔案格式,而是使用者裝置資訊、使用者應用、行為資料、廣告行為資料、使用者的電商消費資料等這樣的一些日志類的資料,是以這個資料量級其實是非常龐大的。
其實大家都應該知道,落盤隻是資料分析中相對來講最為簡單的一步,重點是如何對這些資料進行有效的使用,由于我們所服務的客戶分布的行業不同,國家不同,以及他們可能擁有不同的商業目标。比如說電商客戶可能是以實際銷售承擔為目标的,而遊戲類客戶可能往往會采用遊戲應用的安裝為商業目标。是以在不同的使用者日志資料之間,如何去進行有效的治理跟分析,是我們一個比較重要的任務。
在不同的場景下,首先我們往往需要去支撐營運團隊,在不同時間次元上去做這種聚合報表。包括我們需要在某些場景,比如電商在營銷場景需要去實時更新使用者競價清單,即競價預測的模型,又比如我們在應用類的新增使用者場景下,往往有需要去做使用者 look like等相關度的分析。不同的場景下,原本我們是建構了不同的服務,這個過程中就會有非常多的資料備援存儲,以及計算資源的浪費。
在使用了DLA之後,我們所做的第一步就是實作了我們絕大多數資料運算場景的運存的分離,我們将絕大多數原始日志放置在oss之上,然後使用不同的雲原生服務或者是自建服務去檢索這些原始日志,一方面可以降低我們的存儲成本,另外一方面也提高了資料的一緻性和資料的有效性。
大家應該都知道在所有的資料分析場景中,除開特定的實時運算和實時預測模型以外,其中很大一部分其實都是離線運算或者說更大規模的模型預測。這一部分通常我們都是去使用,比如像Hadoop叢集、Hive、Spark等類型的叢集來去完成的。以往我們都是通過自建叢集來去完成這一部分的工作。但其實考慮到運維管理的成本,因為其實很難在這個任務的完成效率和資源的使用率,以及不同業務線和不同任務之間的排程中達到一個很好的平衡。特别是關于底層計算資源和存儲資源的管理、釋放、新增,其實往往也是一個比較繁瑣且很難處理的很好的事情。
這一塊阿裡雲給我們提供了非常大的幫助,我們從一開始的完全自建的獨立叢集,逐漸遷移到了混合式的就是自建預留式的叢集加彈性EMR到現在基本上絕大多數的任務都會跑在按量需求的EMR叢集之上,極大程度的釋放了我們的運維管理成本,幫助我們能夠更好的去把工程師的精力放在業務分析和實作業務需求上。要知道我們每天都要有數百封不同的業務報表需要去出,有數百個不同的業務模型需要去進行重新分析和更新,有數百個不同的特征要去重新篩選、提取和評估。那麼所有的這些背後,我們現在通過1~2個運維人員就能完成整個叢集的維護和管理工作,這個對我們的幫助是非常之大的。
Yeahmobi放眼未來
其實說到數字廣告營銷行業的發展,大家可能已經聽多了,甚至聽膩了,像精準營銷這樣的一些詞彙,但實際廣告行業的現狀是什麼?可能如果我們拉全網的資料來看,有一個雖然不算非常精确,但大體上準确的一個數字就是可能我們每看100個廣告物料才會産生一次有效的廣告點選,而100次廣告點選背後可能才會有一次廣告承擔。那麼試想一下,精準程度實際上還是相當的低的,這個裡面原因很多,是以我們一直都在緻力于去提升轉化漏鬥中每一個環節的比例,因為越高的比例就意味着一方面我們在網際網路上看,使用者所看到的廣告就越為精準,那麼對使用者的打擾就會越少。另外一方面也有助于提高商業變現的效率,以及我們每一個廣告主在做廣告的時候獲客成本的降低。我們現在和以後主要會關注的領域也是為了去提升這些部分。核心其實還是資料。
這裡面我們現在正在去做和未來會主力去做的幾塊東西如下。
首先第一部分我們沿着廣告的轉化模型來說,我們如何去認知和了解使用者到底需要什麼,這樣我們才能真正傳遞給使用者精準的廣告内容。那麼在這個背後為了實作這個點,很多公司包括我們在内都做了大量的資料分析和模組化的工作,但是我們也都知道說模組化它是一個挖掘的過程,但原始資料依然是極其重要的,是以如何能夠打通上遊從廣告主到媒體端,以及像我們這樣的中間服務商和平台間的資料,去創造更大的資料價值。比如說通過聯邦學習,在不侵犯各自商業資料隐私及使用者隐私的情況之下,将更多的資料納入到訓練模型當中,是我們現在以及未來會核心關注的一塊重要的内容。
第二部分,當我們知道了使用者需要什麼之後,如何将使用者需要的商品内容或者服務内容有效的傳遞給使用者,抓住使用者的眼球。現在大家都知道這是一個圖檔,甚至說是短視訊為王的時代,正常的人工式的短視訊加工,視訊和圖檔加工的方式成本其實是相當之高的。那麼如何通過像nlp,像圖像AI技術來去在了解使用者需求的前提之下,實作智能的創意物料的加工、組裝、拼接和展示,真正能夠做到短視訊時代的千人千面,也是我們一直去緻力追求的一個大的方向。
最後其實要說做到以上所有的這些内容,一定是會需要大量的運算資源跟IT資源的,當然現在的公有雲已經為我們提供了非常好的底座,但是對于做應用端的公司來講,我們依然需要去提升我們的資源利用的效能,來去降低我們服務過程中的成本,這樣我們才能有更多的精力去cover更多的資料跟場景。這個裡面我們主要在過去幾年以及以後,我們都會繼續再向彈性運算,像serverless computing等方面去加大投入,提高我們在不同場景下的資源使用率,以提高我們的服務效能,降低服務成本。