如何建構使用者畫像

從1991年Tim Berners-Lee發明了網際網路（World Wide Web）開始，到20年後2011年，網際網路真正走向了一個新的裡程碑，進入了“大資料時代”。經曆了12、13兩年熱炒之後，人們逐漸冷靜下來，更加聚焦于如何利用大資料挖掘潛在的商業價值，如何在企業中實實在在的應用大資料技術。伴随着大資料應用的讨論、創新，個性化技術成為了一個重要落地點。相比傳統的線下會員管理、問卷調查、購物籃分析，大資料第一次使得企業能夠通過網際網路便利地擷取使用者更為廣泛的回報資訊，為進一步精準、快速地分析使用者行為習慣、消費習慣等重要商業資訊，提供了足夠的資料基礎。伴随着對人的了解逐漸深入，一個概念悄然而生：使用者畫像（UserProfile），完美地抽象出一個使用者的資訊全貌，可以看作企業應用大資料的根基。

一、什麼是使用者畫像？

男，31歲，已婚，收入1萬以上，愛美食，團購達人，喜歡紅酒配香煙。

這樣一串描述即為使用者畫像的典型案例。如果用一句話來描述，即：使用者資訊标簽化。

如果用一幅圖來展現，即：

二、為什麼需要使用者畫像

使用者畫像的核心工作是為使用者打标簽，打标簽的重要目的之一是為了讓人能夠了解并且友善計算機處理，如，可以做分類統計：喜歡紅酒的使用者有多少？喜歡紅酒的人群中，男、女比例是多少？

也可以做資料挖掘工作：利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌？利用聚類算法分析，喜歡紅酒的人年齡段分布情況？

大資料處理，離不開計算機的運算，标簽提供了一種便捷的方式，使得計算機能夠程式化處理與人相關的資訊，甚至通過算法、模型能夠“了解” 人。當計算機具備這樣的能力後，無論是搜尋引擎、推薦引擎、廣告投放等各種應用領域，都将能進一步提升精準度，提高資訊擷取的效率。

三、如何建構使用者畫像

一個标簽通常是人為規定的高度精煉的特征辨別，如年齡段标簽：25~35歲，地域标簽：北京，标簽呈現出兩個重要特征：語義化，人能很友善地了解每個标簽含義。這也使得使用者畫像模型具備實際意義。能夠較好的滿足業務需求。如，判斷使用者偏好。短文本，每個标簽通常隻表示一種含義，标簽本身無需再做過多文本分析等預處理工作，這為利用機器提取标準化資訊提供了便利。

人制定标簽規則，并能夠通過标簽快速讀出其中的資訊，機器友善做标簽提取、聚合分析。是以，使用者畫像，即：使用者标簽，向我們展示了一種樸素、簡潔的方法用于描述使用者資訊。

3.1 資料源分析

建構使用者畫像是為了還原使用者資訊，是以資料來源于：所有使用者相關的資料。

對于使用者相關資料的分類，引入一種重要的分類思想：封閉性的分類方式。如，世界上分為兩種人，一種是學英語的人，一種是不學英語的人；客戶分三類，高價值客戶，中價值客戶，低價值客戶；産品生命周期分為，投入期、成長期、成熟期、衰退期…所有的子分類将構成了類目空間的全部集合。

這樣的分類方式，有助于後續不斷枚舉并疊代補充遺漏的資訊次元。不必擔心架構上對每一層分類沒有考慮完整，造成次元遺漏留下擴充性隐患。另外，不同的分類方式根據應用場景，業務需求的不同，也許各有道理，按需劃分即可。

本文将使用者資料劃分為靜态資訊資料、動态資訊資料兩大類。

靜态資訊資料

使用者相對穩定的資訊，如圖所示，主要包括人口屬性、商業屬性等方面資料。這類資訊，自成标簽，如果企業有真實資訊則無需過多模組化預測，更多的是資料清洗工作，是以這方面資訊的資料模組化不是本篇文章重點。

動态資訊資料

使用者不斷變化的行為資訊，如果存在上帝，每一個人的行為都在時刻被上帝那雙無形的眼睛監控着，廣義上講，一個使用者打開網頁，買了一個杯子；與該使用者傍晚溜了趟狗，白天取了一次錢，打了一個哈欠等等一樣都是上帝眼中的使用者行為。當行為集中到網際網路，乃至電商，使用者行為就會聚焦很多，如上圖所示：浏覽凡客首頁、浏覽休閑鞋單品頁、搜尋帆布鞋、發表關于鞋品質的微網誌、贊“雙十一大促給力”的微網誌消息。等等均可看作網際網路使用者行為。

本篇文章以網際網路電商使用者，為主要分析對象，暫不考慮線下使用者行為資料（分析方法雷同，隻是資料擷取途徑，使用者識别方式有些差異）。

在網際網路上，使用者行為，可以看作使用者動态資訊的唯一資料來源。如何對使用者行為資料建構資料模型，分析出使用者标簽，将是本文着重介紹的内容。

3.2 目标分析

使用者畫像的目标是通過分析使用者行為，最終為每個使用者打上标簽，以及該标簽的權重。如，紅酒 0.8、李甯 0.6。

标簽，表征了内容，使用者對該内容有興趣、偏好、需求等等。

權重，表征了指數，使用者的興趣、偏好指數，也可能表征使用者的需求度，可以簡單的了解為可信度，機率。

3.3 資料模組化方法

下面内容将詳細介紹，如何根據使用者行為，構模組化型産出标簽、權重。一個事件模型包括：時間、地點、人物三個要素。每一次使用者行為本質上是一次随機事件，可以較長的描述為：什麼使用者，在什麼時間，什麼地點，做了什麼事。

什麼使用者：關鍵在于對使用者的辨別，使用者辨別的目的是為了區分使用者、單點定位。

以上列舉了網際網路主要的使用者辨別方法，擷取方式由易到難。視企業的使用者粘性，可以擷取的辨別資訊有所差異。

什麼時間：時間包括兩個重要資訊，時間戳+時間長度。時間戳，為了辨別使用者行為的時間點，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的時間戳即可。因為微秒的時間戳精度并不可靠。浏覽器時間精度，準确度最多也隻能到毫秒。時間長度，為了辨別使用者在某一頁面的停留時間。

什麼地點：使用者接觸點，Touch Point。對于每個使用者接觸點。潛在包含了兩層資訊：網址 + 内容。網址：每一個url連結（頁面/螢幕），即定位了一個網際網路頁面位址，或者某個産品的特定頁面。可以是PC上某電商網站的頁面url，也可以是手機上的微網誌，微信等應用某個功能頁面，某款産品應用的特定畫面。如，長城紅酒單品頁，微信訂閱号頁面，某遊戲的過關頁。

内容：每個url網址（頁面/螢幕）中的内容。可以是單品的相關資訊：類别、品牌、描述、屬性、網站資訊等等。如，紅酒，長城，幹紅，對于每個網際網路接觸點，其中網址決定了權重；内容決定了标簽。

注：接觸點可以是網址，也可以是某個産品的特定功能界面。如，同樣一瓶礦泉水，超市賣1元，火車上賣3元，景區賣5元。商品的售賣價值，不在于成本，更在于售賣地點。标簽均是礦泉水，但接觸點的不同展現出了權重差異。這裡的權重可以了解為使用者對于礦泉水的需求程度不同。即，願意支付的價值不同。

标簽權重

礦泉水 1 // 超市

礦泉水 3 // 火車

礦泉水 5 // 景區

類似的，使用者在京東商城浏覽紅酒資訊，與在品尚紅酒網浏覽紅酒資訊，表現出對紅酒喜好度也是有差異的。這裡的關注點是不同的網址，存在權重差異，權重模型的建構，需要根據各自的業務需求建構。

是以，網址本身表征了使用者的标簽偏好權重。網址對應的内容展現了标簽資訊。

什麼事：使用者行為類型，對于電商有如下典型行為：浏覽、添加購物車、搜尋、評論、購買、點選贊、收藏等等。

不同的行為類型，對于接觸點的内容産生的标簽資訊，具有不同的權重。如，購買權重計為5，浏覽計為1

紅酒 1 // 浏覽紅酒

紅酒 5 // 購買紅酒

綜合上述分析，使用者畫像的資料模型，可以概括為下面的公式：使用者辨別 + 時間 + 行為類型 + 接觸點（網址+内容），某使用者因為在什麼時間、地點、做了什麼事。是以會打上**标簽。

使用者标簽的權重可能随時間的增加而衰減，是以定義時間為衰減因子r，行為類型、網址決定了權重，内容決定了标簽，進一步轉換為公式：

标簽權重=衰減因子×行為權重×網址子權重

如：使用者A，昨天在品尚紅酒網浏覽一瓶價值238元的長城幹紅葡萄酒資訊。

标簽：紅酒，長城
時間：因為是昨天的行為，假設衰減因子為：r=0.95
行為類型：浏覽行為記為權重1
地點：品尚紅酒單品頁的網址子權重記為 0.9（相比京東紅酒單品頁的0.7）

假設使用者對紅酒出于真的喜歡，才會去專業的紅酒網選購，而不再綜合商城選購。

則使用者偏好标簽是：紅酒，權重是0.95*0.7 * 1=0.665，即，使用者Ａ：紅酒 0.665、長城 0.665。

上述模型權重值的選取隻是舉例參考，具體的權重值需要根據業務需求二次模組化，這裡強調的是如何從整體思考，去建構使用者畫像模型，進而能夠逐漸細化模型。

四、總結：

本文并未涉及具體算法，更多的是闡述了一種分析思想，在計劃建構使用者畫像時，能夠給您提供一個系統性、架構性的思維指導。

核心在于對使用者接觸點的了解，接觸點内容直接決定了标簽資訊。内容位址、行為類型、時間衰減，決定了權重模型是關鍵，權重值本身的二次模組化則是水到渠成的進階。模型舉例偏重電商，但其實，可以根據産品的不同，重新定義接觸點。

比如影視産品，我看了一部電影《英雄本色》，可能産生的标簽是：周潤發 0.6、槍戰 0.5、港台 0.3。

如何建構使用者畫像

一、什麼是使用者畫像？

二、為什麼需要使用者畫像

三、如何建構使用者畫像

3.1 資料源分析

靜态資訊資料

動态資訊資料

3.2 目标分析

3.3 資料模組化方法

四、總結：

繼續閱讀

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Idiom of using in F#

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

probe()函數是什麼時候被調用，裝置和驅動是怎麼聯系起來的

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧