天天看點

基于使用者位置資訊的行為分析



  • 基于使用者位置資訊的行為分析
    • 1、位置資訊擷取和存儲
      • 1.1 擷取
      • 1.2 存儲
    • 2. 位置資訊分析
      • 2.1 使用者基本資訊。
      • 2.2 社交關系。
      • 2.3 使用者行為分析。如社交活動。
      • 2.4 使用者行為預測。
    • 3. 算法
      • 3.1 K-means算法
      • 3.2 Apriori算法

    1、位置資訊擷取和存儲

    • 傳送位置資訊時序:
      基于使用者位置資訊的行為分析
    • 基本技術方案步驟
      1. 服務端根據業務需求定時向用戶端推送特定消息(需要服務端、用戶端一起定)
      2. 用戶端接收到推送的消息不向使用者展示任何内容
      3. 用戶端通過Baidu定位API得到使用者目前的的地理位置
      4. 用戶端把地理位置發送給服務端
      5. 服務端儲存地理位置
      6. 服務端定時或者根據不同的需求分析使用者的行為資訊
      7. 用戶端請求服務端相關的資料,服務端根據上次位置資訊分析的結果給使用者傳回特定的資料

    1.1 擷取

    使用者位置資訊主要通過Android或者IOS用戶端調用

    百度定位API

    擷取
    • Android百度定位API
    • IOS百度定位API

    1.2 存儲

    • 用戶端是否擷取到定位資訊後直接發送給服務端?
      • 直接發送

        會造成用戶端電量浪費嚴重,服務端壓力暴增。

        用戶端不存儲任何使用者位置資訊

      • 不直接發送

        省電,減少服務端壓力,但是增加用戶端複雜度

        用戶端存儲使用者的位置資訊

        如果長時間沒有向服務端發送存儲的位置資訊,可能造成較早資料丢失

    • 服務端存儲
    資料庫或其他方式存儲,服務端需要存儲海量使用者位置資訊

    2. 位置資訊分析

    位置資訊分析的工作主要在服務端。

    2.1 使用者基本資訊。

    如家和公司的位置。以坐标進行聚類,再輔助時間,假設白天為公司,晚上為家,可以得到該使用者的家和公司的位置。如果根據坐标可以找到相應的小區、公司名、學校名,就可以粗略知道該使用者的家庭住址和工作經曆。
    • 由于有一部分人會違反1中白天在公司,晚上在家的假設,可以根據某個原則,如晚上3點到4點,坐标變化很小的,認為是家,來把這部分人挑出來,重新分析。
    • 特定時候的特定行為。如年假期間,可以猜測老家。

    2.2 社交關系。

    根據1中的使用者标簽,對使用者進行關聯分析。如公司标簽相同的兩個使用者,如果飯點的運動軌迹相同,可以猜測他們關系不錯。

    2.3 使用者行為分析。如社交活動。

    如果有了使用者的社交關系,結合地理标就可以進行行為分析了

    2.4 使用者行為預測。

    • 比如你最近一個月每天中午都去某個飯館吃飯,我可以預測你今天中午也會經過同樣的路線到同樣的地方吃飯。甚至預測你最近會結婚、生娃、離婚。
    以後涉及到的隐私問題,就看企業自律了。一般來說隻分析到家地理分區,而沒有擷取到具體門牌号時(無論是分析還是使用者自己填寫),是不會涉及隐私問題的。國外某公司的做法是,可能采集使用者姓名、位址,但不會提供給商家(BlueKai.com)。

    3. 算法

    使用百度SDK或者使用特定的算法(當然要商用還得複雜地模組化、複雜的算法)分析使用者活動軌迹.

    3.1 K-means算法

    定義:

    K-means

    算法是硬

    聚類算法

    ,是典型的基于原型的目标函數聚類方法的代表,它是資料點到原型的某種距離作為優化的目标函數,利用函數求極值的方法得到疊代運算的調整規則。

    K-means

    算法

    以歐式距離

    作為相似度測度,它是求對應某一初始聚類中心向量V最優分類,使得評價名額J最小。算法采用誤差平方和準則函數作為聚類準則函數。
    K-means算法百科
    基于使用者位置資訊的行為分析

    3.2 Apriori算法

    Apriori算法

    是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經被廣泛的應用到商業、網絡安全等各個領域。
    Apriori算法百科

繼續閱讀