天天看點

人際圖譜:Facebook的資料挖掘功臣

人際圖譜:Facebook的資料挖掘功臣

  建立與發展

  facebook的人際圖譜團隊創立之初的任務是把使用者個人資訊中的純文字描述轉化成結構化資料。如果沒有這樣的資料,facebook就無法實作廣告閱聽人定位,也不能幫助你找到高中好友。為了利用使用者資料中的各種細節資訊,facebook的工程師們必須建立一個資料集,其中需要包含能夠将不同使用者之間建立聯系的各種資訊。工程師們的解決辦法是利用維基百科上的現有資料。

  很多使用者之間的關聯資訊無法直接和現有頁面建立聯系,借助維基百科上的各種條目,facebook工程師們建立了“數百萬個‘回退’頁面”,然後手動去除重合和無效的頁面。此外,工程師們還需要針對使用者資訊中的書名和電影名等資訊進行手動調整。

  facebook的人際圖譜團隊還利用了wordnet資料庫等工具分析使用者資訊,配合使用者興趣資料集向使用者推薦好友。比如,在簡介中提及“有些朋友會滑雪”的使用者會和那些在滑雪運動頁面上點“贊”的使用者歸類到一起。

  

      人際圖譜現狀

  根據facebook工程師埃裡克·孫(ericsun)的說法,人際圖譜如今的增長速度是他們始料未及的。他表示,該團隊目前的主要任務是“打造能夠不斷優化圖譜的多分支、可擴充系統”。

  目前,facebook對使用者資訊的挖掘已經非常深入。比如,如果你對歌曲“help”點了贊,facebook知道創作它的是披頭士樂隊,它也知道你有哪些好友喜歡披頭士。如果你去了某家餐館,facebook知道它的位置、使用者群體、使用者住處。幫助facebook發掘出如此多的資料的正是人際圖譜計劃。

<b></b>

<b>原文釋出時間為:2013-07-30</b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀