天天看點

移動網際網路資訊挖掘的實作及應用淺析

當今社會已經進入了資訊時代,其主要表現形式為網際網路帶來的資訊爆炸:網際網路作為第四大媒體不僅打破了廣播、電視、報紙的壟斷,而且還融合了廣播、電視、報紙的功能,甚至有取代的趨勢:随着移動智能終端和3g業務的快速普及,移動網際網路悄然而至,帶給人們更加便捷的視訊、遊戲、定位等體驗。

    目前,移動網際網路在全球已經成為最具潛力的市場之一,随之而來的移動網際網路領域的資訊挖掘也顯得日益重要。電信營運商通過對移動網際網路中各項資料進行挖掘和分析,能夠對使用者的使用行為、興趣愛好、發展趨勢等進行全面了解,進而指導營運商進行有效的價值拓展。

    1.需求分析

    3g網絡的不斷優化,讓使用者可以随時、随地高速通路無線資料業務:電信運背商抓住了這個契機,為3g使用者提供豐富多彩的移動網際網路資料業務,如手機音樂、手機電視、手機閱讀、手機郵箱等,資料流量也随之與日俱增,這是增值業務收入提高的重要來源。面對如此衆多的增值業務,如何讓使用者快速找到自己感興趣的業務,營運商又如何去對使用者進行分類,根據使用者的興趣愛好有效地推薦業務,這将是各大營運商面臨的一個重大問題。是以,隻有知道使用者在什麼地方,什麼時間,通路了什麼内容,才能及時準确地把握使用者需求。要做到這一點,就需要對移動網際網路資訊進行深度挖掘和分析,了解使用者興趣點和通路習慣等,再通過有針對性的營銷手段,通過合适的管道,快速将業務資訊有效地推廣到使用者終端,促使使用者通路所感興趣的内容,同時避免對使用者的重複打擾,這樣才能真正實作移動網際網路時代精細化營運的目标。

    2.移動網際網路資訊挖掘方式

    資訊挖掘是通過分析使用者資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示等步驟。移動網際網路資料具有資料量大、資料結構複雜、資料内容分散等特點,呈現出爆炸性增長的趨勢。是以,為了從浩如煙海的資料中提取出有效資訊,必須選擇合适的資料挖掘政策。

    2.1 資訊挖掘流程

    資訊挖掘是一個複雜的過程,需要進行大量的資料采集和運算等。按照基本功能,可以将整個資訊挖掘流程劃分成内容采集、内容挖掘和行為分析3個環節(見如圖1)。

移動網際網路資訊挖掘的實作及應用淺析

圖1 資訊挖掘流程

    2.1.1 内容采集

    不論是在政府、商業領域,還是在個人領域,進行資料分析和資料挖掘的基礎都要基于資訊的真實性和有效性。營運商可以将網絡流量與使用者的真實身份進行對應。進而進行有效的資料挖掘和分析,有利于後續營運活動、網絡優化的開展。内容采集主要包括以下3個方面。

    a)垃圾頁面過濾。系統每天從分組域網絡中擷取了topn的資料,而真正有效的内容隻有一部分,需要在前端排除過濾掉那些不關心的幹擾資訊、産品的垃圾頁面等。

    b)頁面内容爬取。這是将網頁的内容通過爬詞引擎擷取的部分,分析頁面代碼格式,清除标簽,盡可能擷取内容的标題、正文、段落、字型、顔色等資訊。

    c)頁面垃圾過濾。頁面中不可避免地會存在大量的垃圾資訊,這些資訊嚴重幹擾到聚類的準确度,頁面垃圾過濾機制會找出包括廣告在内的段落,并将其清除,不進入内容挖掘部分。

    2.1.2 内容挖掘

    内容挖掘包括以下3個方面。

    a)頁面内容分析。把前置工作過濾完成的真實頁面内容,交給内容分析引擎,該引擎分析出資訊的标題和正文,并将它們進行分詞處理,擷取整篇内容的關鍵詞條,為内容聚類提供基礎資料。

    b)頁面内容聚類。這是網際網路資訊挖掘引擎的核心部分,把所有經過内容分析的頁面進行聚類分析,把若幹相似度高的内容聚類成一組,然後交給資訊處理引擎分析各組内容的相同與不同資訊。

    c)頁面資訊處理。對聚成相同類别的各個頁面的資訊,進行比對和統計,統計出這些相同或相似頁面之間的共性與異性,再結合頁面通路資訊、客戶資訊等計算出相應的報表用于展示。

    2.1.3 行為分析

    客戶行為分析為内容挖掘與客戶關聯部分提供資料支援,其包括以下2個部分。

    a)客戶畫像。客戶畫像是對客戶的多元度描述,是一個客戶的資訊與标簽,為相關資料分析提供依據,同時也是一個個客戶群建立的基礎。客戶畫像的次元越多、越精準。就越能夠反映出使用者的興趣、習慣等。客戶畫像的次元可以包括基本資訊次元、終端次元、流量次元、通路次元、搜尋次元、專題次元、應用次元、産品次元、消費次元等。

    b)客戶洞察。客戶洞察是對單一客戶或客戶群的深度描述。洞察通路是在個體的客戶畫像的基礎上,洞察客戶通路“熱點内容”或“熱點标題”的客戶特征。客戶洞察要求從不同的角度進行,包括基本屬性、社會屬性、業務屬性、電信屬性、消費能力等方面。根據洞察條件,對客戶進行深度挖掘,挖掘出“熱點内容”或“熱點标題”的客戶特征,即要洞察出客戶的基本流量、趨勢、習慣、終端、通路、搜尋、音樂、視訊、圖檔、下載下傳、遊戲、閱讀、房産、汽車等特征。

    2.2資訊挖掘熱點技術

    2.2.1頁面過濾

    在一個網站中,存在很多如廣告、導航頁面、功能頁面、提示頁面等沒有實際主題的頁面,這些頁面不應該參與到内容(熱點内容)挖掘中來,否則将會給分析帶來巨大的誤差。是以,必須預先對這些頁面進行過濾:實際上,過濾過程是一個知識積累的過程。是以,需要建立内容過濾的知識庫,在知識庫中儲存了需要過濾内容的規則。如:廣告頁面直接過濾掉即可,而導航頁面則不進行内容的文本切詞等後續挖掘,但需要提取頁面上的所有連結以擷取下一級頁面等。對于一個有效頁面,依然需要對其進行内容清洗,去掉頁面中的廣告、格式等無效資料,僅保留主題内容。

    2.2.2 文本切詞

    文本切詞,就是對過濾和清洗後的主題内容迸行詞組劃分,擷取i亥主題的所有關鍵詞,即将一個文章的主題内容漢字序列切分成一個個單獨的詞。目前的分側箅法可以分為三大類,分别是基于字元串比對的分詞方法、基于了解的分詞方法和基于統計的分詞方法。目前并不能斷言哪種方法的準确率更高,是以對于任何一個成熟的分詞系統來說,不可能單獨依靠某一種算法來實作,都需要綜合不同的算法。

    a)字元串比對分詞:又被稱為機械分詞方法,是按照一定的政策将待分析的漢字串與一個充分大的機器詞典中的詞條進行比對,若在詞典中找到某個字元串,則比對成功(識别出一個詞)。目前,該種方法已經存在多種較為成熟的算法和模型。應用較為廣泛。

    b)基于了解的分詞:通過讓計算機模拟人對句子的了解,達到識别詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。由于漢語語言的複雜性,目前基于了解的分詞系統還處住研究階段。

    c)基于統計的分詞:這種方法隻需對語料中的字組頻度進行統計,不需要切分詞典,但這種方法也有一定的局限性,會經常抽出一些出現頻度高,但并不是詞的常用字組等。

    2.2.3 内容聚類

    聚類分析是人們認識和探索事物内在聯系的一種手段,其目的就是将一個資料集劃分為若幹聚類并使得同一個聚類内的資料對象具有較高的相似度。而不同聚類中的資料對象則是不相似的。

    不同于内容(頁面)分類的把各個貝面分成各個類别。内容聚類是将相同類别,相同内容或相似内容的頁面聚合在一起。把其作為比較的對象,提供最終的内容展示基礎。聚類分析是面向實際應用的技術,是以聚類的定義與待處理的資料類型有關。基于不同的模型構造思想,目前學術界提出了一系列很具體化的定義,如距離模型、質心模型、連接配接模型、密度模型、相似性模型等。以相似性模型為例。相同類别的頁面,通過對内容标題或正文的分詞,比較不同文章分詞的相似度,通過聚類算法,滿足條件的文章,被認為是聚合的。這裡,資料(内容)對象之間的相似度由相似系數确定,而對象之間是否相似則必須通過預設的門檻值來加以規定,相似系數大于門檻值的對象之間是相似的,否則就是不相似的。

    2.2.4 熱點挖掘

    熱點挖掘除了對熱點網站、熱點内容、熱點标題等通過聚類分析等進行挖掘,還需要對一些未知的熱點資訊和熱點關聯資訊進行分析。

    a)不确定網絡熱點主題發現。資料挖掘的魅力在于“發現”,“發現”即為事先不可預知的事物。在網絡上,發現新的熱點主題是系統實作的一項重要技術特征。“不确定網絡熱點主題發現”不事先定義主題,也不事先定義任何關鍵字,是一種無監督、無指導的自然聚類過程。通過無指導的自然聚類,得到一系列網絡主題,然後提取代表詞,呈現給使用者,使用者通過觀察再賦予主題名。

    b)熱點關聯分析。關聯規則挖掘是資料挖掘中最活躍的研究方向之一,它反映了大量資料中項目之間有趣的關聯或相關關系。通過應用資料挖掘技術中的關聯分析技術,給出關鍵詞之間的關聯關系。計算任兩個關鍵詞存在關聯的支援度和置信度,進而當某一關鍵詞出現時可以預測到與其存在關聯關系的其他關鍵詞出現的機率。這點在敏感資訊監控方面尤其重要,可以提前預判到敏感資訊的出現,進而提前做出相應的處理措施。

    3.業務應用

    目前,基于移動網際網路的資訊挖掘,結合營運商的業務發展情況,可以開展針對性業務推薦和定向廣告的應用探索。其巾,針對性業務推薦是根據使用者特征推薦可能感興趣的業務。可以涵蓋營運商的自有業務、合作業務以及第三方業務等;定向廣告是基于使用者資訊的挖掘分析進行精确投放,既節約,資源,又可以達到良好的投放效果。

    3.1 針對性業務推薦

    移動網際網路時代。使用者對資訊的擷取需求更為迫切,為使用者推薦合适的内容,有利于增加使用者黏性,降低流失率。如使用者通路門戶網站時,為其推薦适合的書籍、遊戲、視訊等。國外營運商很早就重視将使用者行為分析技術應用于針對性營銷,并開展了多種嘗試。例如,vodafone通過使用者資訊挖掘進行精确營銷,對産品銷售提升最高可達400%?

    國内營運商也建設了相關平台,通過資訊挖掘,對使用者進行細分,營銷人員根據營銷目标,結合産品比對模型,實作針對性業務推薦和精确營銷的目的,此外,存新産品開發過程中,也逐漸重視使用者分析的應用和實踐,針對不同的使用者群體,開發不同的産品,制定不同的套餐标準等,并及時發現現有産品或業務流程的小合理之處。進行優化和改進,提高客戶體驗。

    針對性業務推薦可以基于多種方式。如營業廳實體管道、門戶個性化展現、電話營銷、以及傳統的短信、彩信和wap push推廣等。以下是某省通過wap push推送炫鈴“音樂盒”的營銷案例,采用相同的推廣内容和管道。但随着目标使用者群提取方式的不同,營銷效果和營銷成本都有巨大差異。

    方式一:随機選取10000個3g手機上網的出賬使用者,推送“音樂盒”業務,使用者訂購率為0.8%。

    方式二:根據通路和搜尋“興趣點”,選取标有“音樂類”特征的3 000個3g使用者進行推送,使用者訂購率為7.6%。

    對比以上2種方式發現。經過使用者資訊挖掘後的針對性營銷,可以大幅提升成功率,節約營銷資源。

    3.2 定向廣告

    通過對使用者浏覽、搜尋内容的分析,有針對性地投放廣告。以達到最好的廣告效果。目前這種定向廣告在網際網路領域應用非常廣泛,例如google的adwords,根據使用者目前閱讀的内容投放精确廣告;騰訊利用其qq使用者的行為和偏好資訊開展遊戲等相關業務的精準營銷。

    以手機終端或業務為載體的移動廣告形式多種多樣,如短信廣告、彩信廣告、wap廣告、程式嵌入式廣告、位置廣告、手機視訊廣告、搜尋廣告等。是以,利用手機使用者的資訊挖掘和行為分析,基于移動廣告的多種形式,結合相應的推薦模型。可以通過精準友好的方式及時推送有效的手機廣告。

    在移動通信領域,很多國外營運商都開展了定向廣告服務,如美國spint通過對使用者位置資訊分布的分析,為廣告商,商場提供最佳廣告/開店位置服務;新加坡電信業也通過使用者資訊和位置資訊提供廣告服務;英國新興營運商blyk通過精準營銷廣告運作,使最高使用者響應率達51%(普通方式投放的響應率不足1%)。

    4.結束語

    移動網際網路是目前移動通信發展的趨勢。是營運商需要重點關注的領域。借助有效的資訊挖掘技術。提取使用者資訊,分析使用者的特征,進而有針對性地開展營運和服務,并根據營銷結果進行進一步的資訊挖掘和分析,進而形成良性的閉環營銷體系。如何開展好高效的資訊挖掘工作,充分發揮營運商的智能管道優勢,持續做好流量和業務營運将是營運商探索的一個方向。

繼續閱讀