天天看點

大資料的應用——使用者畫像

什麼是畫像?

什麼是畫像呢?可能大家看到過一些外文資料或者演講中出現過profile一詞,其實和畫像是一個概念,都是從不同的次元來表達一個人,這些次元可以是事實的,可以是抽象的;可以是自然屬性,比如性别、年齡;可以是社會屬性,比如職業、社交特征;可以是财富狀況,比如是否高收入人群,是否有固定資産;可以是家庭情況,比如是否已經結婚,是否有孩子;可以是購物習慣,比如喜歡網購還是喜歡逛商場;可以是位置特征,比如在哪個城市生活;可以是其他行為習慣。總之,所有大家能想到的描述一個人的特征的都可以算作是畫像的範疇,畫像其實就是想方設法用資料來描述人的特征。

畫像的用處?

大家之是以要進行使用者畫像,就是為了解決業務問題,或者為了拓展一個新使用者,或者為了獲得一個新訂單。想要獲得新使用者,首先必須知道自己産品定位的使用者畫像(也就是使用者長什麼樣子,有什麼行為特征),而很多産品設計的時候可能由于定位不清晰,對使用者的了解不夠,導緻最後産品上線後效果與預期大相徑庭。

這裡舉一個例子,A銀行的電子支付團隊計劃與Uber公司合作,在春節後以短信推送優惠劵的方式進行營銷,選擇了多類人群進行投放,其中有“有打車需求且有車”和“有打車需求且無車”兩類人群,本以為“有需求且無車”人群的廣告觸達的營銷效果會更好,結果卻完全相反,“有需求且有車”人群的廣告觸達的比例反而最高。這可能映射出無論是開車還是打車,習慣了車反而離不開車。用資料來畫像正是幫助企業了解使用者和定位産品的最直接的方法。

綜上我們可以看到要向更好的解決業務問題,首先必須明确業務目标,而使用者畫像是幫助企業明确目标客群的重要手段之一。當企業了解了自己的使用者都長什麼樣子以後,接下來的任務就是如何将有類似畫像特征人群的潛在使用者變成自己的使用者,也就是在營銷上獲新客的過程。是以,從大的架構來看,使用者畫像承載了兩個業務目标:

  • 如何準确的了解現有使用者;
  • 如何在茫茫人海中通過廣告營銷擷取類似畫像特征的新使用者。

如果仔細琢磨這兩個目标,其實在根源上邏輯是有些相悖的。了解現有使用者的畫像,需要的是少量、畫像特征覆寫度全面的無傾斜的精準樣本,這樣能更精确的定位産品的使用者。而通過畫像結果做廣告營銷擷取新使用者,在一定程度上需要的是大量的相似樣本。量的大小和精準度的不同決定了後續畫像模型在應用設計中的不同。

提到使用者畫像就不得不提到一個詞“标簽”。标簽是表達人的基本屬性、行為傾向、興趣偏好等某一個次元的資料辨別,它是一種相關性很強的關鍵字,可以簡潔的描述和分類人群。标簽的定義來源于業務目标,基于不同的行業,不同的應用場景,同樣的标簽名稱可能代表了不同的含義,也決定了不同的模型設計和資料處理方式。舉個例子,如果一款賣男裝的app想在近期做營銷,隻篩選“男性”和“網絡購物”這兩個标簽進行投放,可能效果并不一定理想。因為“性别(男/女)”可能有多種次元,真實性别男女是一種次元,網絡購物特征男女是一種次元,性取向男女可能又是另外一種次元。因為網絡的發展,你甚至都不知道網絡的另一端是不是一個人,更何況是男女呢。想要正确的設計标簽模型和計算處理資料,必須了解畫像标簽應用的場景和目标。

如何進行人物畫像?

這完全取決于業務目标(需要什麼樣的畫像标簽)和有什麼樣的原材料(有什麼類型的資料源),基于這兩樣才能确定使用什麼樣的模型設計和資料計算處理方式。就像做菜一樣,要做一頓美味的晚餐,必須知道客戶是想吃中餐還是西餐,配菜都有哪些魚蛋肉和蔬菜,然後才能确定牛肉是紅燒還是煎炸。

仍然以性别(男/女)為例,嘗試演繹一下剛才的三個場景。

如果業務是征信場景,想知道的是這個人的真實性别(男/女),在沒有全量真實資料的前提下可以采取如下的方法來處理,可以選取少量真實樣本,使用這些真實樣本追加一些特征因子,使用lookalike算法進行樣本擴充,将該少數樣本特征擴充到大量或者全量資料。當然,這些資料的準确度取決于樣本的均衡程度和算法的品質。

如果業務是網絡購物的電商場景,我們先不嘗試判斷真實購買男裝的是否是男性(很多已婚人士是妻子負責網購丈夫的裝備),僅僅考慮将來該網絡賬戶實體是否會購買男裝的角度考慮,需要的是“男裝購買傾向”的标簽,可以直接基于所有賬戶實體以往購買記錄來計算處理該标簽。

如果是業務場景是blued(一款同志交友app)定義的男性又是另外一個特殊群體,基于客戶想拓展新客,這裡定義的特殊男性群體或許可以定義為“男性同志”标簽,而實作該标簽可以考慮通過安裝了類似同志交友的app人群或者以同志人群經常出現的聚集地進行計算處理。

是以說針對不同的行業,不同的應用場景,需要使用不同的資料源進行不同的标簽設計和計算。

  • 人口屬性:包含性别、年齡等人的基本特征;
  • 資産情況:車輛、房産、收入等資産特征;
  • 興趣特征:閱讀資訊、運動健康等興趣偏好;
  • 消費特征:網上/線下消費類别品牌等特征;
  • 位置特征:常駐城市、職住距離等;
  • 裝置屬性:所使用終端的特性等。

要支援以上這些标簽的設計和計算,需要多種次元的資料源:

  • 從産生次元來看:可以包含PC端的資料、移動終端的資料、線下的資料;
  • 從資料擁有者來看:可以包含一方客戶自己的資料、外部官方管道的資料、市場采集的資料;
  • 從資料類型來看:有社交資料、交易資料、位置資料、營運商資料等。

使用這些不同源的資料,我們如何計算處理業務需要的标簽呢?一般都會經過如下幾步:

  • 資料抽取:從不同資料源抽取要計算标簽的資料原材料。
  • 資料标準化:針對抽取的資料将其清洗為标準格式,将其中的錯誤資料和無效資料剔除。
  • 資料打通:不同來源的資料有不同的主鍵和屬性,如何将這些資料關聯起來是資料打通的關鍵,比如有裝置的wifi資訊,又有裝置的poi資訊,就可以通過wifi将裝置終端和POI建立起關聯。
  • 模型設計:針對不同的資料内容和業務目标設計不同的規則和算法進行模型的建構,并使用小樣本資料來驗證模型的可靠性。
  • 标簽計算:在模型可靠性驗證的基礎上,部署生産營運環境來進行标簽計算。

一般标簽計算無外乎以上過程,以“大學生”标簽為例,假如我們需要針對移動終端人群設計一個大學生标簽,而我們并沒有每個大學生的入學資訊和證件資訊,我們該如何操作呢。首先進行業務分析,發現大學生的行為特征,一般大學生都會在大學校園内活動比較多,我們可以将全國2000多所高校的位置找到,根據移動終端裝置的位置資訊來篩選“大學生”人群;另外大學生可能還會使用一些特殊的app比如考研類、四六級、超級課程表等這些特殊app,我們可以通過app進行“大學生”人群的篩選。如果不用算法,就隻用規則,我們想找精确的“大學生”人群,可以将位置和app行為兩個特征疊加使用;如果我們想要擴充樣本進行大規模廣告投放,可以考慮含有位置、app行為任意一個特征的人群,同時還可以通過算法進行lookalike的擴充樣本學習。注:以上表達的都是資料和标簽處理的邏輯過程,實際業務中的資料處理要視具體情況而定。

畫像常用算法?

大資料的應用——使用者畫像

使用者畫像和标簽設計/計算中的一些難點

  • 如何定義畫像主體?也可以了解為如何唯一辨別一個實體?
    • 可以了解真實世界每個人都是一個實體,但是虛拟世界他可能就變身為多個,比如人可能有一個身份ID,但是可能有多個手機,就對應了多個手機号,多個裝置終端ID,那就對應多個移動終端的使用行為;這多個終端ID分别代表了這個實體的不同特征,隻有将這個實體拼接起來才能代表完整的畫像。一個人可能有多個qq号,如果從qq行為的角度分析,同樣的邏輯。這是終端實體多對一的展現。反過來也會有一對多的情況,比如就一個家庭用的ipad,孩子用ipad來玩遊戲,父親用ipad來查收郵件,母親用ipad來購物,這一個ipad代表了多個實體的行為特征,并且無法分拆。是以要想唯一完整的定義一個實體其實很難。是以在業務領域中追求标簽的完整性有時候是一個很難達到的目标,反過來應該更多的關注标簽的代表性,無論是一對多還是多對一,隻要能通過标簽篩選出來想尋找的閱聽人群體就可以,即便是家庭公用的ipad,有遊戲标簽也表明了家庭中有成員有該方面的興趣偏好。
  • 如何打通不同源的資料?
    • pc端的行為資訊、移動終端的行為資訊和TV端的行為資訊,如何将這些資訊關聯起來?核心問題在于如何将這些終端的唯一辨別ID打通。TalkingData的資料體系已經建立了以TDID為核心ID的關聯圖譜,TalkingData的IDmapping能力已經實作了跨裝置ID的關聯映射。是以要解決不同源ID的打通隻要接入一家類似TalkingData的資料即可。而TalkingData的資料ID體系可以實作如下能力。

繼續閱讀