經曆了2012和2013兩年熱炒之後,人們逐漸冷靜下來,更加聚焦于如何利用大資料挖掘潛在的商業價值,如何在企業中實實在在地應用大資料技術。伴随着對大資料應用的讨論、創新,個性化技術成為了一個重要落地點。相比傳統的線下會員管理、問卷調查、購物籃分析,大資料第一次使得企業能夠通過網際網路便利地擷取更為廣泛的使用者回報資訊,為進一步精準、快速地分析使用者行為習慣、消費習慣等重要商業資訊,提供了足夠的資料基礎。伴随着對人的了解逐漸深入,一個概念悄然而生:使用者畫像(UserProfile)。它完美地抽象出一個使用者的資訊全貌,可以看作企業應用大資料的根基。
一、諸葛io告訴你,什麼是使用者畫像?
男,線上時長30秒,系統裝置: Lenovo A390t Android 4.0.3,和賬号綁定。愛理财,自拍達人,喜歡淘寶上購物。
這樣一串描述即為使用者畫像的典型案例。如果用一句話來描述,即:使用者資訊标簽化。
如果用一幅圖來展現,即:

二、為什麼需要使用者畫像?
使用者畫像的核心工作是為使用者打标簽,打标簽的重要目的之一是為了讓人能夠了解并且友善計算機處理。比如可以做分類統計:喜歡購物的使用者有多少?喜歡理财的人群中,男、女比例是多少?
也可以做資料挖掘工作:利用關聯規則計算,喜歡理财的人通常喜歡什麼運動品牌?利用聚類算法分析,喜歡購物的人地區分布情況是怎麼樣的?
大資料處理,離不開計算機的運算,标簽提供了一種便捷的方式,使得計算機能夠程式化處理與人相關的資訊,甚至通過算法、模型能夠“了解”人。當計算機具備這樣的能力後,無論是搜尋引擎、推薦引擎、廣告投放等各種應用領域,都将能進一步提升精準度,提高資訊擷取的效率。
三、如何建構使用者畫像?
一個标簽通常是人為規定的高度精煉的特征辨別,如:性别标簽”男、女”、地域标簽“北京”,等等。标簽呈現出兩個重要特征:一是語義化,即人能很友善地了解每個标簽的含義。這也使得使用者畫像模型具備實際意義,能夠較好地滿足業務需求。如:判斷使用者偏好。二是短文本,每個标簽通常隻表示一種含義,标簽本身無需再做過多的文本分析等預處理工作,這為利用機器提取标準化資訊提供了便利。
我們制定的标簽規則,必須要確定所做的标簽具備兩個基本特性:人能夠通過标簽快速讀出其中的資訊,機器友善做标簽提取、聚合分析。是以,使用者畫像,即使用者标簽,向我們展示了一種用于描述使用者資訊的樸素而簡潔的方法。
3.1 資料源分析
建構使用者畫像是為了還原使用者資訊,是以資料來源于:所有使用者相關的資料。
關于使用者相關資料的分類,這裡介紹一種重要的分類思想:封閉性的分類方式。
這樣的分類方式,有助于後續不斷枚舉并疊代補充遺漏的資訊次元。不必擔心架構上對每一層分類沒有考慮完整,造成次元遺漏留下擴充性隐患。另外,不同的分類方式根據應用場景,業務需求的不同,也許各有道理,按需劃分即可。
本文将使用者資料劃分為靜态資訊資料、動态資訊資料兩大類。
靜态資訊資料——
使用者相對穩定的資訊,如圖所示,主要包括人口屬性、商業屬性等方面的資料。這類資訊,自成标簽,如果企業有真實資訊則無需過多模組化預測,更多的是資料營運清洗工作,是以這方面資訊的資料模組化不是本篇文章重點。
動态資訊資料——
使用者不斷變化的行為資訊,如果存在上帝,每一個人的行為都在時刻被上帝那雙無形的眼睛監控着。從廣義上講,一個使用者打開網頁,買了一個杯子,與該使用者傍晚溜了趟狗,白天取了一次錢,打了一個哈欠等一樣,都是上帝眼中的使用者行為。當行為集中到網際網路,乃至電商,使用者行為就會聚焦很多。
本篇文章以網際網路電商使用者為主要分析對象,暫不考慮線下使用者行為資料(分析方法類同,隻是資料擷取途徑、使用者識别方式有些差異)。
在網際網路上,使用者行為可以看作使用者動态資訊的唯一資料來源。如何對使用者行為資料建構資料模型,分析出使用者标簽,将是本文着重介紹的内容。
3.2 目标分析
使用者畫像的目标是通過分析使用者行為,最終為每個使用者打上标簽,以及該标簽的權重。如:男、網購、自拍。
标簽,表征了内容,使用者對該内容有興趣、偏好、需求,等等。
權重,表征了指數,使用者的興趣、偏好指數,也可能表征使用者的需求度,可以簡單地了解為可信度、機率。
3.3 資料模組化方法
下面内容将詳細介紹如何根據使用者行為,構模組化型産出标簽、權重。一個事件模型包括時間、地點、人物三個要素。每一次使用者行為本質上是一次随機事件,可以較長的描述為:什麼使用者,在什麼時間、什麼地點,做了什麼事。
四、總結:
本文并未涉及具體算法,更多的是闡述了一種分析思想,因為諸葛io可以幫您更精準的分析使用者。單體使用者洞察分析可以讓使用者屬性一目了然,從諸葛IO開始,從此再也不用為資料分析絞盡腦汁;
體驗位址:http://www.zhugeio.com/