天天看點

《計算廣告:網際網路商業變現的市場與技術》一一1.1 大資料與廣告的關系

本節書摘來自異步社群出版社《計算廣告:網際網路商業變現的市場與技術》一書中的第1章,第1.1節,作者: 劉鵬 , 王超,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

近年來,大資料思維和技術漸成顯學。然而,大資料這一概念至今為止并沒有一個内涵上準确的界定。在參考文獻[56]中,作者用volume(規模)、variety(多樣性)、velocity(高速)和value(價值),即所謂的4v特征來描述大資料問題的特性,但并沒有給出這類問題的界定标準。然而,從實際操作的角度來看什麼是大資料問題或許要比理論上的定義簡單一些:如果有的資料處理問題無法通過資料采樣的方法來降低處理的複雜程度,就必須利用一些專門為海量資料處理而設計的計算和存儲技術(如mapreduce、nosql資料庫等)來實作。于是,這樣的問題也就從工程上歸為大資料問題,圖1-1闡釋了這一視角。

《計算廣告:網際網路商業變現的市場與技術》一一1.1 大資料與廣告的關系

在圖1-1中,我們考察的是某一個有确定目标函數的資料處理問題。圖中的三條曲線是三類有代表性的資料問題。

(1)c類問題。從工程友善的角度來看,如果通過資料采樣能夠顯著降低資料處理的複雜程度,同時解決問題的效果(即目标函數)沒有太大的下降,那麼顯然應該這樣做。這類問題可以用圖1-1中的c曲線來示意。由于可以通過很低的采樣率解決問題,并不需要大規模分布式的計算架構,用傳統的資料方案就可以解決,是以,這類問題應該歸為傳統資料處理問題,而非大資料問題。一般的統計報表、報告等往往屬于這類問題。

(2)a類問題。另外有一些資料問題基本上不可能通過隻處理一小部分資料來達到處理全量資料所能達到的效果,或者說随着資料采樣率的降低,解決問題的收益會快速下降,這類問題是典型的大資料問題,用圖1-1中的a曲線來示意。由于需要處理大規模的全量資料,傳統的存儲和計算架構都不再合适,必須尋找新的方案,這實際上是推動大資料技術發展的原動力。個性化推薦(personalizedrecommendation)和計算廣告(computationaladvertising)需要用到每一個人的行為進行定制化推送,而無法隻采樣其中的一部分人來處理,是以可以認為是典型的大資料問題。大資料問題由于無法利用傳統的計算架構和資料倉庫來處理,是以才會産生hadoop等新的基礎設施和nosql資料存儲等技術。

(3)b類問題。當然,實踐當中大資料問題和一般資料處理問題并不是泾渭分明的。有一些問題,其處理效果随着資料量的上升有一定提高,但當資料大到一定規模以後,再增加資料量價值就不大了,這類問題可以用圖1-1中的b曲線來示意。一個典型的例子是文本主題模型(topicmodel)。我們用1000萬文檔往往會得到比10萬文檔更穩定、更有意義的主題,然而用10億文檔和用1億文檔差别可能就會不那麼明顯。在解決這類問題時,往往是選取一個有較大規模但并非全量的資料集來處理。針對這種中等規模問題上的複雜算法,也産生了像spark這樣更加靈活高效的計算架構。

很顯然,從以上觀點出發,計算廣告是非常典型的大資料應用。實際上,在以往相當長的一段時期裡,我們認為唯一得到充分商業化和規模化的大資料應用就是計算廣告。計算廣告為各行各業大資料的落地提供了非常有價值的借鑒範本,下面幾點尤其值得了解和關注。

(1)計算廣告為規模化地将使用者行為資料轉化為可衡量的商業價值提供了完整産品線和解決方案,并且實際上創造了網際網路行業大部分的營收。

(2)線上廣告孕育和孵化了較為成熟的資料加工和交易産業鍊,并對其中的使用者隐私邊界有深入探讨,這值得所有涉及使用者資料的網際網路應用學習和借鑒。

(3)由于有了商業上的限制條件,計算廣告的技術和産品邏輯比單純的個性化系統更加複雜周密。是以,了解線上廣告的産品和市場對于設計正确有效的商業産品大有益處。

由于以上這些原因,如果你是一位從事大資料或商業産品的産品經理、工程師或管理者,我們強烈建議你認真了解一下廣告的産品和技術,相信你一定會有很大的收獲,也會快捷地了解到這一領域真正有挑戰的問題是什麼。本着這樣的目的,我們在本書後續部分中将廣告市場的産品和技術演進作為一條明的主線,而将這一市場對資料的利用程度作為一條暗的主線來展開。希望讀者能夠通過閱讀本書,具體地了解資料是如何通過廣告市場規模化地創造商業價值的。

繼續閱讀