天天看點

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

作者:開放隐私計算

開放隐私計算

這是“紛析咨詢”創始人宋星半小時讀懂系列的一篇新的文章。他用簡單易懂的語言介紹了隐私計算技術在數字營銷領域裡的關鍵應用,以及背後的原理即可。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

企業自己的資料,在數字營銷中越來越重要

在介紹隐私計算在數字營銷中的應用之前,先要說明一個非常非常重要的一點,那就是企業(廣告主)自己的資料,在數字營銷中的作用越來越重要。

企業自有的一方資料的作用,不過,《中華人民共和國個人資訊保護法》的出台,很大程度上限制了企業一方資料的随意應用。最典型的,幾乎所有在廣告投放上的一方資料應用,都需要由企業之外的實體(一方或多方)參與,這就可能導緻資料直接的轉移和使用與法律規定的要求相違背。

即便沒有法律的限制,一方資料在應用中也涉及到洩露企業的機密資訊的可能性。如果我是廣告主,在我将自己的一方資料拿給媒體用于找人投放的時候,我确實會非常猶豫。

法律限制、保密需求,與讓一方資料發揮真正的價值産生了嚴重的沖突,而這樣的沖突,目前隻有隐私計算能夠很大程度上地緩解。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

撞庫

一方資料指導投放的邏輯是這樣的:廣告主将自有的、包含ID的消費者資料“交給”媒體,然後媒體在自己資料庫中也同時查找這些ID。如果找得到同樣的ID,那麼媒體就開始基于媒體自己的資料,分析這些ID背後的使用者是什麼樣的人,也就是我們說的,分析這些人的标簽或者特征。然後,媒體在自己的資料庫的海量資料中,查找與這些ID具有類似标簽,或者具有類似特征的人。

一旦找到了類似特征的使用者,就把這些人的ID記錄下來,作為可以針對性投放的人群。一旦這些ID背後的使用者打開了媒體的網頁或者應用,廣告就會出現在這些人打開的網頁或者應用上面的廣告位上。

這就是我們常說的look-alike的投放的“大白話”的原理。除了這種最為常見的look-alike,一方資料與媒體端的二方資料或者其他方的三方資料,如果能夠連接配接、打通這些資料,就能夠應用在很多數字營銷中此前不能實作的應用場景上。關于這些場景是什麼,我們在這篇文章的後半段會具體講述。

為了實作連接配接與打通這些消費者資料,資料中的ID至關重要,這個ID必須是廣告主和媒體共同利用的ID類型。比如,廣告主和媒體雙方都用手機号碼識别使用者,或者都用裝置ID(deviceID)識别使用者。

現在,另一個至關重要的問題需要解決,那就是我打了雙引号并且加粗了的“交給”二字。

廣告主是如何将自己的一方資料連同ID一起“交給”媒體的呢?

過去,媒體提供給廣告主一個上傳資料的操作界面,廣告主把自己的一方消費者資料,上傳給媒體就可以了。

最開始,這些一方消費者資料的上傳,是明文的。

但這麼做,廣告主風險巨大,媒體也漸漸不想接受這些明文資料。因為媒體若接受了這些資料,它也要承擔法律責任,而廣告主随意上傳明文消費者資料且不說會洩露消費者個人資訊,它自己的商業機密也被洩露了。

是以,媒體之後,都要求廣告主上傳經過加密的消費者資料(MD5或者SHA256加密)。

MD5或者SHA256,都是不可逆的加密。也就是說,不可能通過加密之後的密文還原為原文。加密了之後如果把原文完全毀掉并且忘掉了,想要找回原文是不可能的。當然,不能通過密文還原為原文,不代表不能用别的方法還原為原文——這一點極為重要,也是我們後面隐私計算能夠實作的基礎之一。

假如,我用SHA256加密了一段文字:“我愛公衆号開放隐私計算”,變成了密文

“43d24306cf8a96d5b47f33114bdc66ef0c32cd26b639a4f71f5dfe13c65bce43”。然後我忽然得了失憶症,忘掉了原文是什麼,而且我也沒有任何記錄記下我的原文是什麼。現在我手上隻有這段完全看不懂什麼意思的密文。

按道理講,我永遠也不可能再知道這段密文對應的明文是什麼了。

但天無絕人之路。正巧我的朋友,他也曾經加密了很多文字,其中也包括“我愛公衆号開放隐私計算”這十一個字。

并且,他沒有丢掉他的原文和加密密文的對應記錄。

我于是去找他,希望搞清楚我的密文“43d24306cf8a96d5b47f33114bdc66ef0c32cd26b639a4f71f5dfe13c65bce43”背後到底是什麼原文。

他把這個密文跟他所有的密文做一個vlookup的比對,或者幹脆來個Ctrl+F,直接就找到了他那邊的同樣的密文,然後對照着他的原文和密文對照表,他輕松找到了“我愛公衆号開放隐私計算”。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

上圖:撞庫

我想你一定已經了解了背後的原因,就是這種SHA256等不可逆加密的背後,是不需要密鑰的,而且任何人,隻要他加密的原文是一樣的,那麼得到的密文也就一模一樣。

無論是使用者ID,還是一段話,隻要是相同的,那麼SHA256之後的密文,不會有差別。

是以,廣告主把自己的消費者的電話号碼一一用SHA256加密,然後拿着密文上傳給媒體,隻要媒體那邊也有這些消費者的電話号碼,那麼就能夠同樣把這些電話号碼用SHA256加密之後,進行比對。

雖然是用加密的密文進行比對,但是用原文密文的對照表一對照,也就知道了明文是什麼。

這種方法,有一個學名,叫“隐私集合求交”,也被俗稱為“安全求交”。但,實際上,“安全”二字很勉強,它本質上就是行業中常說的“撞庫”的方法。

你會說,這樣加密還有什麼意義,隻要保留着加密的明文和密文之間的對應關系,那麼什麼不可逆加密之類的,都照樣會被破解。廣告主就算把消費者的ID都加密了,上傳給媒體,媒體照樣還是很有可能把這些密文對應的ID給找回來。

并不是沒有意義。上面這些不可逆加密的方法,确實不妨礙媒體還原廣告主上傳的消費者ID。但資料傳輸的中間過程中,例如需要由第三方經手的時候,資料萬一發生洩露,消費者ID明文被暴漏的風險大大降低了。

比如,我是廣告主,我找一個agency幫我上傳相關的資料給媒體。在明文操作的情況下,agency可以拿到這些消費者ID,并且agency的員工有可能獲得這些ID,這是很不安全的。但是,如果加密了,就算agency拿到了這些密文,也不會有大量的手機号碼和對應的密文的對照表,風險也會更小。

講到這裡,跟隐私計算還沒有什麼關系。下面,隐私計算要出場了。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

隐私計算為什麼是必須的

在上面的場景中,有些廣告主介意自己的消費者ID上傳給媒體,哪怕是加密了,這些廣告主仍然覺得自己的消費者ID會通過撞庫被媒體掌握。

比如,奧迪說,我可不願意把我的消費者ID上傳給媒體,要是上傳給了媒體,媒體就知道這些ID背後,是我的消費人群,媒體就可能轉手把我的這些ID用于給其他車廠進行營銷所用,比如給寶馬或者特斯拉投廣告,就直接投放給這些ID。

隐私計算可以解決這個問題,即廣告主ID保密情況下的ID比對與資料應用。這種基于各方共有ID并在比對ID(撞庫)之後進行的相關計算,被稱為“縱向聯邦學習”。

另一些廣告主,則有更高的要求,他們說,我的這些消費者,不僅僅隻有ID,還有很多ID背後的屬性,這些資料,能不能跟媒體或者第三方的資料結合起來,用于更好地洞察消費者?或者結合起來更好地圈選消費者?不過,這些屬性不能透露給媒體或者第三方,也就是說,要在不給媒體或者第三方提供資料的情況下實作基于一方、二方(或三方資料)相結合的人群洞察和圈選。

這也是隐私計算可以解決的問題,即在不共享消費者屬性資料的情況下,實作對屬性資料的應用。

這些應用對于實作一些重要的數字營銷場景至關重要,畢竟,資料如果不能夠連通起來,資料的價值就大打折扣,資料在數字營銷上的作用就得不到充分發揮。可以這麼說,今天的數字營銷,如果沒有隐私計算的幫助,很多進階的玩法都無法實作。

我們先看看“廣告主ID保密情況下的ID比對與資料應用”問題如何通過隐私計算加以解決。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

在ID保密情況下的ID求交與資料應用

前面說了,ID保密是廣告主在意的,他們不希望自己消費者的ID被媒體知道,以免媒體把自己的ID也用于自己競争對手的推廣。

但自己的ID總是要跟媒體的ID做比對的,一旦比對了,那豈不是自己的這些ID,媒體就完全知道了。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

上圖:交集ID可以不洩露嗎?

是以,必須解決這個問題。

利用差分隐私實作匿蹤安全求交

這個問題的解決,要靠加入一些“混淆ID”。

所謂“混淆ID”,也叫“随機噪聲”,就是廣告主在跟媒體比對的時候,額外随機添加很多其他與廣告主消費者不相關的ID。這樣,媒體就不知道廣告主真正的消費者到底是哪些了。

比如,A是廣告主,自己的消費者手機号碼有5000個,想要跟媒體B進行ID比對。但為了不把這些ID暴露給媒體,于是又摻雜了45000個其他的手機号碼。這樣,湊齊了5萬個手機号碼,跟媒體比對。

媒體,當然也就不知道這5萬個手機号碼中到底哪些是廣告主的消費者了。廣告主的ID就此實作了保密!

這種利用“摻混淆資料”保護秘密(隐私)的方法,被稱為“差分隐私”。差分隐私有很多方法,這裡講的隻是一種最容易了解的方法。其他各種摻入混淆資料的方法,要基于各種各樣的算法,以保證混淆的效果,這裡就不多介紹了。

加入了差分隐私的ID比對,也被稱為“匿蹤安全求交”。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

上圖:基于“混淆差分”的安全求交

講到這裡,你肯定會一頭霧水了。按照這樣的比對方法,廣告主的資料豈不是也被污染了?比如,廣告主要找跟自己已有的這5千消費者相近似的人群,結果,媒體按照的卻是“摻水”的5萬個人群去尋找近似人群。廣告主雖然保住了秘密,但是營銷效果卻南轅北轍了!

你的擔憂不是多餘的,這絕對是非常重大的問題。為了解決這個問題,需要再引入一些新的東西。

這個新的東西,是媒體和廣告主中間的一個可信第三方。

可信第三方

還是回到前面這個例子,A是廣告主,B是媒體,那麼這個可信第三方就是C。

C的職責很重要。

廣告主(A)要把自己的5000個手機号碼加密發給第三方(C),然後C幫忙再摻入45000個起混淆作用的手機号碼。

然後C幫助A,跟媒體(B)進行資料比對。比對完成後,B将自己的資料結果(個體級别的使用者屬性資料),以加密的形式發給C。

C針對B發回的加密屬性,把混淆ID的加密屬性去掉(剝離),然後計算廣告主5000個手機号碼中能比對到的那些人的加密屬性,并且歸納出這些人的共性特征。這些共性特征,不再帶有個人屬性,而是統計級别的資料,是以不再涉及到廣告主A的消費者的ID。并且這些共性特征是由媒體B發來的加密屬性計算出來的,是以,也是加密狀态。

第三方C再把這些共性特征傳回給媒體B,媒體把這些加密狀态的共性特征解密,之後尋找與這些共性特征相同或者相近的人群,幫助廣告主進行廣告投放。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

上圖:加入可信第三方的匿蹤安全求交

同态加密

你肯定又有問題了,為什麼C計算的是媒體B發來的加密的個體屬性。加密之後,還能計算嗎?

答案是,能。因為隐私計算有另外一個技術,叫“同态加密”。所謂同态加密,就是計算原文(明文)的結果,和計算這些明文加密之後的密文的結果,是完全一樣的。如果原文用了某個算法和秘鑰進行了加密,那麼加密之後,做“加減乘除”以及各種各樣的數學計算之後得到的結果,再利用該加密算法和秘鑰解密之後,得到的結果,和直接用明文做同樣的數學計算得到的結果一樣。

這樣,C在計算媒體B發來的加密個體屬性,得到的共同屬性特征,雖然也是加密的,但是在B那裡做一個解密就可以直接應用于圈選人群了。甚至,今天的技術,連解密都不需要,就可以直接圈選人群了,這樣安全性進一步提高。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

這樣,廣告主A沒有暴露自己真正的消費者ID;媒體B也沒有透露自己這些ID背後的屬性;第三方C,幫助A和B完成了資料比對,也計算出A消費者的共性特征,卻也不知道這些特征具體是什麼。隻要C信守誠信,不洩露A交給他的加密的消費者ID,那麼整個過程,就是相當安全的。

這就是隐私計算在數字營銷上的一個非常典型且重要的應用。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

對交集ID進行保密的進一步優化

基于可信硬體技術的安全屋

上面的“匿蹤安全求交”需要加入很多“噪聲”,同時對第三方的計算能力的要求很高。而且,還要確定第三方是誠實可信的。

是以,在實踐中,采用這種方法并不多。大部分時候,廣告主和媒體都怕麻煩,媒體會直接在自己的伺服器内辟出一個所謂的“安全屋”,然後讓這個安全屋扮演上面第三方C的角色,發揮安全求交或是逆蹤求交的作用。

這是目前最常見的實作方式,但談不上小标題所說的優化,隻能算是簡化。這種簡化,多多少少有點“自欺欺人”的味道。

當然,這種方法也不能說一無是處,媒體會強調,廣告主的資料會在“可信硬體技術”之下被隔離保護起來,對廣告主資料的操作,也是在這些硬體内進行的,并不會被洩露到這些硬體之外。

可信硬體技術,也在行業中被俗稱為“資料安全島”。

可信硬體技術主要解決下面的問題:

1. 資料獨立(data separation):存儲在某個分區中的資料不能被其他的分區讀取或篡改。也就是說,廣告主用于安全求交的ID,是不會被放到除可信硬體之外的地方的。

2. 時間隔離(temporal separation):公共資源區域中的資料不會洩露任意分區中的資料資訊。計算資源,例如CPU,也有專門隔離的時間切片,來處理可信硬體中的資料。

3. 資訊流控制(Control of information flow):

除非有特殊的授權,否則各個分區之間不能進行通信。

4. 故障隔離(Fault isolation):一個分區中的安全性漏洞不能傳播到其他分區。

如果媒體嚴格采用可信硬體技術及管理,确實能夠確定廣告主提供的ID不被挪作他用。當然了,媒體是不是都能嚴格自律,我們可以看他們獲得的執行标準的認證,比如《資訊安全技術 可信執行環境服務規範》認證之類。不過認證這東西也不能100%全信,具體哪個媒體合格,哪個媒體不合格,就不在本文讨論的範圍了。

全匿名下的安全求交(尚無定論)

上面的方法,對那些“較真”的廣告主而言,可能是不可接受的。

有些廣告主,一定要求自己上傳的ID不能被媒體知曉,那怕是加密後,并且媒體保證隻用這些ID做撞庫也不行。是以,他們迫切需要知道,是否有比“匿蹤安全求交”更優化的方法解決這個問題。

目前,隐私計算的技術解決方案提供商可能已經找到了解法。這個解法,頗有些“釜底抽薪”的味道。簡單講,任何求交的過程,都必然會導緻交集ID被求交的雙方共同掌握(安全求交),或是被第三方掌握(匿蹤安全求交)。那麼,如果能夠不做求交,就實作跟求交一樣的效果,把廣告主ID和媒體ID比對的使用者的屬性直接計算出來,就不存在廣告主的消費者ID被媒體知曉的情況了。

在2022年的一個新聞稿中,某個資料科技公司提到,他們的技術能夠:“無需安全求交、不洩露交集ID、在全匿名資料集下進行聯邦學習的技術難題,真正符合《資料安全法》和《個人資訊保護法》的要求,進一步加強了使用者資料安全和隐私保護。”

真的可以嗎?我的客戶和我見過的媒體都還沒有采用,是以,我暫時還不能給出肯定的回答。但看到這個消息,至少讓我覺得這個方向是有可能的。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

ID求交(撞庫)和可信硬體環境下的數字營銷應用場景

廣告主的消費者ID和媒體的使用者的ID打通,本質上就是廣告主私域使用者的ID,和媒體的公域人群的ID的打通。

一旦打通,很多數字營銷的應用就變得可能。

應用一:Retargeting

Retargeting:廣告主把那些在自己的私域中留下了各種行為和痕迹,但卻沒有實作最終轉化的人的ID收集起來,然後把這些ID跟媒體的ID做安全求交,之後在媒體上給這些人投放定向廣告。

比如,某次大促,廣告主A花了一個億,引流到自己的私域小程式上,并獲得了1000萬個OpenID。然後,這1000萬個OpenID中,有100萬個發生了購買行為,剩下900萬個沒有購買。于是,廣告主A又找騰訊,把這900萬OpenID跟騰訊廣告做安全求交,随之對這900萬人進行定向的朋友圈廣告投放。

應用二:Look-alike

跟Retargeting其實本質沒有什麼差別,隻是多了一個步驟,即look-alike的步驟。

還是上面那個例子,廣告主A覺得對900萬個沒有購買的投放一次廣告,人數有點少。于是就找騰訊廣告說,我跟你安全求交後,請你幫我找到跟這100萬購買人群類似的更多的人。于是騰訊廣告基于這100萬購買人群的共性特征,幫助廣告主A找到了3000萬個跟這100萬人類似的人。随之對這3900萬(3000萬look-alike的人,加上900萬retargeting的人)人進行廣告投放。

應用三:基于一方、二方資料的聯合人群圈選

這個是一個非常有意思的應用,是目前比較高端的應用。媒體可能隻對部分大型廣告主開放該功能。

具體實作如下:

廣告主将自己的消費者ID,以及每個ID對應的屬性标簽,在加密後,上傳到媒體提供的可信硬體環境中。

媒體與這些ID進行安全求交。

求交之後,能夠比對到的ID,媒體也把這些ID對應的媒體端所擁有的屬性資料,上傳到該硬體環境中。

此時,這個硬體環境中,也就是資料安全島中,就集合了交集ID,以及每個ID所對應的廣告主的一方屬性标簽,和媒體的二方屬性标簽。

媒體基于這些ID和屬性标簽,以及基于這個可信硬體環境,為廣告主提供一個圈選人群的界面。廣告主在這個界面中,根據自己的需求,基于一方、二方的屬性标簽,進行人群圈選。

比如,廣告主A,跟媒體通過安全求交,比對了1000萬人。這1000萬人,廣告主自己的标簽是過去一年内的購物資料和私域内的互動行為資料。而媒體端,則是這1000萬人的社會屬性和興趣愛好資料。

基于聯合人群圈選的解決方案,廣告主A可以選擇,在過去3個月内購買了某類商品,且興趣愛好是旅遊的一線城市的20-30歲的女生。

圈選之後,媒體基于圈選結果得到的ID,進行廣告投放,或是按照廣告主A的要求做其他營銷觸達。

或者,廣告主也可以先基于自己的一方資料标簽,圈選出人群,然後再看這些人群的二方屬性是什麼。進而更好地洞察自有消費者。

比如,廣告主A基于自己的一方資料,圈選出3個月内購買某類商品的人群,然後再在這個界面上要求媒體對這些做畫像。媒體會提供這些人的二方屬性的統計報告。

應用四:資料下發

所謂資料下發,是指媒體基于ID求交之後,将個體級别的資料傳輸給媒體。

最典型的,就是“會員通”。

廣告主将自己的會員ID加密後,上傳給電商平台提供的“會員通”服務指定的可信硬體環境中(例如,阿裡的聚石塔、京東的雲鼎),ID在這裡進行求交。求交之後能比對上的ID的會員相關的資料,會傳輸給廣告主。

應用五:Leads打分或決策判斷

指在ID求交之後,第二方或者第三方為廣告主提供是否應該為該ID進行某項營銷行為的判斷決策。

比如,汽車廣告主,将收集到的線索(leads)ID,通過安全求交的方法與營運商的資料相比對。比對後,營運商提供一個線索價值的打分傳回給廣告主。

案例分享丨隐私計算在數字營銷中的底層邏輯和應用場景

安全求交之外的隐私計算應用

安全求交并不是隐私計算在數字營銷中的唯一應用。我們前面講過,安全求交本質上是“縱向聯邦學習”。

同樣,“橫向聯邦學習”在數字營銷中也有應用。

比如,我們如果有1000萬個汽車購買者的私域資料樣本,就能計算出,購車人在私域中做出的哪些行為(或行為的組合),就意味着他們要買車了。這個計算的結果,就是“購車預測模型”。

但可惜,每個汽車主機廠最多的樣本也隻有200萬個。于是多個主機廠聯合起來,他們不分享任何的ID給彼此(不做安全求交),而是各自基于自己的樣本先計算一個“粗糙的”購車預測模型。然後各自把自己計算的模型結果上傳到一個第三方,第三方基于這些車廠的模型,整合出一個新的模型。并把這個新的模型下發給各個主機廠,再次做計算,以優化這個模型的“梯度”。

至于什麼是梯度,就不解釋了,太技術。你可以簡單了解為,就是對這個模型裡面的參數什麼的進行進一步優化。

這樣的過程多來幾遍,直到這個模型靠譜了,就能夠給每個車企使用了。

你看,每個車企沒有把自己的任何樣本公開出去,卻都得到了靠譜的購車預測模型。

所謂橫向聯邦學習,這裡的橫向,就是指,參與計算的各方,他們擁有的樣本的ID并不相同,但是這些ID的屬性類型是相同的,比如購買者都有在私域中的各種同樣的行為類型(檢視車型、檢視購車金融、詢問客服之類的,每個車企的私域都有這些相同的互動功能)、同樣的社會屬性類型等。而縱向聯邦學習,則是樣本的ID相同,而ID背後的屬性不同。

講到這裡,終于把我想講的基本上講完了。能讀到這裡的朋友,應該對隐私計算在數字營銷上的原理和應用有了更全面的了解,想要了解更多隐私計算案例,可持續關注我們。

END

熱門文章:

隐私計算頭條周刊(5.8-5.14)

講師招募|歡迎加入“隐私計算共學計劃”

聯合國公布18個全球隐私計算技術應用典型案例!

AI 大模型淘金時代,淘金的鏟子和勺子是什麼?

案例分享 | 差分隐私在美國人口普查資料中的應用

繼續閱讀