天天看點

移動廣告作弊流量超過30%?你中招了嗎

<b>注:</b>網際網路推廣對網上交易必不可少,但作弊流量讓企業的推廣費用打了水漂,今天就教大家如何辨識移動廣告的作弊流量。

流量作弊彌漫在網際網路廣告行業中,已經成為公開的秘密。今天的話題集中在移動流量作弊上面,作弊(反作弊)形式和技術與pc作弊不盡相同。pc的使用者辨別通常使用浏覽器的cookie;而移動的辨別通常是idfa(蘋果),google ads id(海外android),imei(國内android)。移動app有更多信号(機會)辨識真僞,pc浏覽器的限制會比較多。

這篇文章就膚淺介紹一下虛假流量後的一些潛規律,很多分析都很淺顯,是以叫做淺潛規則。

<b>1. 虛假流量的術語</b>

本文聊的作弊流量,有好多種說法,側重點也不盡相同。

<b>作弊流量(fraud traffic) :</b>大白話,容易明白,就是騙人的流量

<b>非人為流量(no-human traffic ): </b>這種流量特指一些bot流量,機器模拟的;對于一些劫持的流量,有些灰色地帶,是以不夠準确。

<b>非激勵正常流量(no-incentive traffic):</b>有些流量雖然是人為流量,但常常是由某種誘惑而來(例如不合理頁面設計,獎券,紅包,遊戲點卡等),是以激勵流量通常轉化效果比較差。

<b>無效流量(invalid traffic) :</b>為了規避過于敏感的作弊(fraud)而使用的術語,這樣不容易得罪人,無效流量中既有故意為之,也有無意為之的。

<b>異常流量(abnormal traffic) :</b>類似于無效流量,強調流量的異常性。

這些術語之間并沒有太多包含關系(或沒必要嚴格細分),更多的是用在不同的場景和角色。例如,有些研發人員關注no-human traffic(bot traffic) ;有些效果監測的公司更加關注計費的流量,是以願意使用invalid traffic;早期,這些流量都稱為fraud traffic,是以作弊流量也是一種常用說法。

<b>2. 移動廣告的業務模式圖:</b>

有錢的就地方就是作弊,常在河邊走,哪有不濕鞋?看看錢是如何流動的就可以了解其中利益關系。錢流的上遊是付錢的主,下遊的機構總想放大收入,那麼在付錢主的所能容忍範圍内最大化收入就是各個環節優化的目标。這是一個在限制條件下,單優化目标的問題。

移動廣告作弊流量超過30%?你中招了嗎

常見流量作弊的動機:

<b>媒體:</b>制造虛假流量,提升收入

<b>廣告代理/銷售:</b>營運虛假流量,保證合同,提升收入

<b>交易平台:</b>對虛假supply審查不嚴格,提升收入

<b>使用者:</b>為獲得激勵(紅包,點卡等)而産生低(無)效果流量

<b>廣告主:</b>惡意消耗競争對手的預算

<b>3. 移動廣告目前的虛假流量比例</b>

由于虛假流量過于複雜和敏感,大家在報數的時候都是非常謹慎小心的。盡管如此,最後大家報的數字千差萬别,是以無法考證各個資料的置信度,大家參考一下就好。

<b>ana( association of national advertisers): </b>“聲譽差的交易平台作弊流量達到25-50%,聲譽好的通常低于10%”。

<b>appflyer:</b>2016年,applift的報告指出34%的移動流量為有風險的虛假流量(risk of fraud, 22%可疑,12%高風險) 。android虛假流量比例大于ios,系統版本約高,虛假比例越低。

<b>秒針:</b>2016年垂直網站與網盟媒體異常流量占比最高。其中,垂直類媒體曝光異常大幅增至 24.93%,點選異常中網盟類媒體最為明顯,占比高達 71.07%。

<b>admaster :</b>2016年全年無效流量整體占比為30.2%;下半年出現小幅度惡化現象,無效流量增加3.7%;

<b>4.移動虛假流量的分類</b>

虛假流量有很多種分類,各種分類都會有灰色的領域,下面我試圖用作弊的基本原理方式來分類,而且主要是針對移動的場景。更加全面和系統的分類,可以參考劉鵬老師的《網際網路廣告作弊十八般武藝》。

移動廣告作弊流量超過30%?你中招了嗎

另外一種分類可以按照裝置和人為的四象限分類

移動廣告作弊流量超過30%?你中招了嗎

<b>5. 移動反虛假流量的模型</b>

在讨論如何對付移動虛假流量的方法之前,我們先看看移動作弊的一些主要黑技術,做到知己知彼。

移動作弊中涉及很多黑技術,其中包括一下一些:

<b>模拟器:</b>bluestacks, andywin, genymotion

<b>spoofer: </b>不斷的修改機器的ip , imei, mac等

<b>proxy: </b>網關,修改isp, ip, ua , 裝置類型等

<b>蘋果: </b>沒有模拟器,主要通過硬體和軟體模拟

<b>激勵流量(incent traffic ): </b>真實人流量,但是轉化率差的流量 ...

對于如何防範移動虛假流量,這确實是一個複雜的問題。并非沒有防範作弊的高端技術,也不是因為這個問題不夠嚴重,最主要的原因有三個。

精準打擊反作弊的成本比較高

各種玩家的利益配置設定原因

作弊者的受益高和風險低,大部分情況下,作弊者不會受到任何懲罰。

例如,最近友盟+在法院起訴某家app刷量公司,理由是影響了友盟統計計算的正确性和公正性。目前法院并沒有判定,我也不得知其訴訟的合理性。打個比方,有一個刷牆公司把路上所有廣告牌都刷成某家公司,然後有一個品牌影響力排名公司去控告這個刷牆公司,嚴重影響了它的品牌排名公正性。總感覺這個邏輯,不算太對。我也确實非常讨厭app刷量公司,但是從哪個角度去批判和懲罰他們,确實值得法律法規上更多的讨論。

<b>不聊倫理和法規,聊聊技術吧,我覺得技術上可以按照如下模型來對付虛假流量,這裡特指移動端。</b>

移動廣告作弊流量超過30%?你中招了嗎

<b>硬體:</b>手機擁有更多的硬體資訊,是以通過硬體資訊進行虛假流量的防範,可以防範通過非手機(即bot,伺服器等)的虛假流量。雖然,現在手機系統提供了有一些标準函數可以獲得硬體資訊,例如imei,mac等,但這些函數很容易被一些通用軟體工具所攻破。另外,這個硬體辨別的資訊,也無法在伺服器端得到有效校驗。是以,在虛假流量的鬥争中,第一步往往就是識别流量的來源,是真實手機,還是模拟器,伺服器模拟等工具。

<b>規則政策:</b>規則往往是最簡單有效的防範機制,例如,對于第一次通路全新流量,将虛假流量的可能性設定為高。對于每天多餘x次的有規律通路,堅決抵制等等。規則有很多很多,不斷的增加,修改,發展到最後,規則的比對次序也成了一門藝術了。對于一些初級的造假者,往往會落到這些規則中。

<b>機器學習:</b>機器學習就是通過一些訓練資料集合訓練出一個分類器,對于一些特征,訓練出一些權重資訊,而後用于流量的分類識别上。做虛假識别的團隊很多時候在這個方向會越做越深,使用更多的特征,使用更多資料,使用更加及時的資料,嘗試更多的模型。這個領域工作很“苦”,做嚴格了,收入可能受影像,做寬松了,廣告主投訴roi下降,這種平衡有點裡外不是人。

<b>智勇雙全:</b>有些作弊并非一定通過死闆的技術手段完成的,其實有很多五花八門的方法。舉例來說,通過加大對于媒體的懲罰力度,可以提高媒體的作弊成本,進而降低作弊率。另外,還有一種有趣的反作弊方法,叫做honey ad(有時也叫bluff ad),這些廣告有些特點(例如,預期點選率很低),通過觀察點選率是否和預期一樣,可以判斷流量是否是機器流量(機器流量無法判斷這些廣告的貼點)。

<b></b>

<b>6 識别虛假流量的技術流派</b>

這一部分主要是集中在通過機器學習的辦法辨識虛假流量的技術,有一大部分内容可以在相關的論文中找到。

<b>6.1 分類方法</b>

大部分算法工程師在處理虛假流量都是從分類技術開始的,構造一個分類器,找各種各樣的特征,找到一些虛假流量的(例如轉化率異常)訓練資料。這種方法對于對于虛假流量的樣本非常依賴,不同的樣本很容易訓練出不同的模型,容易過渡拟合。 對于新的虛假流量模式,不容易及時發現。

<b>6.2異常檢查(anomaly-based detection)</b>

學術上有很多論文,讨論通過聚類的方案識别異常流量,在移動端,可以通過跟蹤某一個使用者辨別的曆史行為,各種上網行為,廣告請求行為,浏覽行為,特别是跨媒體的使用情況,以辨識這個流量是否是正常手機的使用軌迹。

基于曆史資訊和行業平均水準進行異常分析

基于時間的變化,發現一些突變點

這一技術在金融和交易的反欺詐,用的非常多,技術也非常繁多

常用方法可以聚類,分類或者内容分析;

<b>6.3 app的廣告作弊的自動化檢查</b>

市面上有很多app,那些app是制作虛假流量的來源?有沒有什麼自動的檢查方法? 微軟有一篇論文就是介紹這方面的工作,通過自動運作app,分析app的廣告情況:太多廣告,廣告大小過小,重疊廣告等等。

2014,《decaf: detecting and characterizing ad fraud in mobile apps》

<b>6.4. 審計(audit)</b>

審計是一種傳統的反欺詐方法,也是有效的,對于調查一些刷量問題也是有直接幫助的。

當有些在某些媒體(publisher) 點選發生點選

廣告平台/廣告主向媒體發送一些審計的請求,确認之前受到的點選的有效性(時間點,基本資訊),而後進行對比。

<b>6.5 僞廣告驗證(honey ads)</b>

廣告平台發送一些小比例的廣告,例如一些資訊提示,按道理,這些提示内容并沒有讓使用者click的意圖。

如果這些僞廣告的點選率,仍然很高,像其它的廣告點選率一樣高,說明這些流量有問題。

<b>6.6 裝置id的真僞辨識</b>

在移動裝置上,對于裝置id的辨識可以極大的幫助識别虛假流量。有兩件事需要确認,第一,這個id是有效的id,第二,這個廣告請求确實是來自這個id所在的裝置。

移動裝置id也比較多,國内安卓以imei的md5/sha256為主;imei通常也會帶有制造商的一些基礎資訊。

如何确定這個id是來源于真實的裝置,這就需要利用硬體的技術,或則通過曆史資料的一些分析來看。例如有一個imei ,請求的ip來源忽悠不定,上午的ip在鄭州,下午在杭州和南甯等,或則不熟悉的地方,那麼這些廣告請求中,通常有虛假的成分。是以,對id進行辨識,對常見id可以采用輔助的技術進行識别,包括通路頻率,ip範圍,浏覽行為,搜尋行為,app事情情況等等,通路時間等,而且可以通過資料鍊的方式來判定請求的真實性。

<b>6.7 分享一些反欺詐的論文</b>

這裡推薦老東家的一篇論文,《click fraud detection: adversarial pattern recognition over 5 years at microsoft》,這篇文章介紹了微軟2014年之前的一些心路總結,從rulebitmap 到 model fighting,如何定義metric (value per click)。我有幸與部分作者一起工作,期間真心感到反欺詐的工作的無冕之艱辛。

我收集了一些papers,有興趣的同學可以到我的首頁上下載下傳:http://www.ouyangchen.com/download

<b>7 反作弊技術公司</b>

<b>1.integral ad science</b>

2009年成立的反作弊公司,保護品牌安全等,這家公司和尼爾森有很多合作, 詳情可見integralads.com

<b>2. solve media</b>

專業提供captcha( "completely automated public turing test to tell computers and humans apart")的服務,也就是驗證是否是人操作,而不是機器通路。

<b>3.double verify</b>

主要從事視訊的可見性的檢測,它和facebook和youtube都有合作,經過mrc的認真。

<b>4. forensiq</b>

專業處理虛假流量的技術公司,在投前,投中,投後都能夠提供解決方案。

<b>8 最後不得不說的話</b>

打擊異常流量,是一件苦勞總是多于功勞的事情,處理不利常常遭到廣告主的投訴以及平台的信譽度下降,如果過于激進,廣告主消耗可能會顯著減少,交易平台流水也會減少。反欺詐算法的同學通常需要保守各種算法規則的秘密,很多時候,一些新的規則上線,也不能大肆宣揚,隻能暗中觀察效果,與非正常流量開始一波又一波的拉鋸戰鬥。

最後,為長期打擊反欺詐的同學鼓掌加油!

轉載自阿裡雲合作媒體51cto,作者歐陽辰

上一篇: PLM日志
下一篇: 效率管理

繼續閱讀