摘要:本次由阿裡雲駐雲科技資深架構師翟永東帶來了“基于 MaxCompute 搭建社交好友推薦系統”為主題的分享,主要對大資料在好友推薦系統中的應用、好友推薦系統的分析模型、好友推薦系統在阿裡雲上的實作方式和 MaxCompute 技術進行了精彩的介紹。
大資料在好友推薦系統中的應用
給大家分享一下基于 MaxCompute 搭建社交好友推薦系統,使用 MaxCompute 阿裡的大資料計算的方法可以做哪些事情,如果說是以社交好友的推薦,來給大家去示範一下。好友推薦系統它的一個場景介紹,現在大家都在講大資料,如果想去使用這些資料,我們認為它需要具備三個要素,第一個要素是海量的資料,資料量越多越好,隻有資料量達到了足夠大,我們才能夠成為一個資料裡面潛在去挖掘出來。第二個是處理資料的能力,有了這樣很高的快速處理資料的能力,可以讓我們更快的去把資料裡面的資訊挖掘出來。第三個是商業變現的一個場景,我們采集大資料的時候,并不是資料越多越好,一定要有一個具體的場景。以推薦系統為例來看一下大資料的一個應用。

左邊是支付寶,在支付寶一打開的時候,下面會有一欄推薦可能是你的好友,一般的話下面的那些人都是你認識的,可能還沒加他們為好友。右側是 Linkin,它是一個求職社交網站,Linkin 也會給你這樣的一個推薦,會告訴你哪一些使用者是你潛在的好友,而且 Linkin 會告訴你這個好友跟你是一度的關系的還是兩度的關系或者是三度的關系。潛在關聯性高的,會在前面直接顯示出來,潛在關聯性沒有那麼高的也會
在後面顯示出來,這兩個都是典型的一個好友推薦。
進行好友推薦的時候,怎麼給使用者進行推薦,首先這兩個人是非好友的關系,接着我們去看一下他們倆潛在共同好友的處理,通過這種方式去給使用者推送,比方說潛在好友數量多,我就認為這兩個人是好友關系,就是通過這種方式來實作的。
上圖的右側是人與人之間的一個社交關系的服務,比如說 A 跟 B 是一個好友,我們可以通過這五個方式畫出來,讓機器去分析這些資料,需要把右邊這種社交的關系,轉換成機器可以識别的資料,轉換成左側這樣的二維表的資料,比如說 A 跟 B、C、D 他們之間是好友,我們左側是 A 跟 B、C、D 是好友關系,剩下這些也是類似的,這樣就可以把這個表傳到機器裡面進行分析,比方說通過分析之後,發現 A 跟 E
有一個共同好友,B 跟 D 有兩個共同好友,然後 C 跟 E 有一個共同好友。這個時候就可以推薦 B 跟 D 他兩個是一個潛在的好友,而排在前面,A 跟 E 或者 C 跟 E 排在機率往下,稍微低一些,潛在好友多的排在前面,潛在好友少的排在後面,通過這種方式來進行排列,這個是我們期望的結果。
好友推薦系統的分析模型
我們怎麼來去計算呢?我們一般使用方式是什麼呢?使用的是 MapReduce 這樣的一個計算模型,MapReduce 是一種程式設計模型,用于大規模資料集的并行運算,它由三部分組成分别是 Map、Combine、Reduce。以好友推薦這樣的一個場景為例。
首先輸入左側機器可以識别的資料,輸入之後,在 Map 端先把資料做一個拆分,拆分成兩份不同的資料,在拆分的同時把它轉換成 key、value 的類型,比方說 A、B、D、E 這幾行資料轉換成什麼呢? A 跟 B,然後 value 是零,零代表他們兩個已經是好友。如果兩個不是好友的話,自定義這一行資料,B 跟 D 不是好友,就把他的值視為 1。下面的 B、E,還有 D 跟 E 也是 1。把原來一行資料轉換成 Key、Value這個形式的資料,類似于右邊這樣的資料,上面是 key、value 的一個類型,下面也是類似的。這個是在 Map 做的事情,把這個資料通過兩個 key、value 進行一個拆分,轉化成 key、value 這樣的一個類型。
Combine 是對資料先做一個本地的彙總,先看到有一些資料是重複的,比如說A 跟 B 是零,A 跟 B 是零,出現了兩次,這個時候就存一個就可以。其他類似的,這樣我把這些資料在本地做完彙總,類似于這張表,這兩個資料。
接着是第三步是 Reduce 階段,Reduce 是對這些資料進行一個彙總,把兩邊資料彙總到一起,然後對每一個 Key 值對應唯一的一個 value 值做一個彙總,這個就是它最終計算的一個結果。如果兩個使用者已經是好友了,Value 值是零的話,不需要再給他推薦。是以說 A、B 如果是零的話就剔掉,隻需要知道它的 value 值是大于零的,有潛在好友,同時這兩個人目前還是非好友的關系,這個就達到了想要
的效果。
好友推薦系統在阿裡雲上的實作方式
好友推薦阿裡雲實作整個的架構是怎麼樣的呢?比方現在有一個社交軟體是一個業務系統,前端使用阿裡雲的雲伺服器 ECS 去部署整個的社交的軟體的應用,入庫的一些資料存到阿裡的 RDS,這個就是目前的一個社交應用系統。業務系統裡面産生了一個資料,怎麼來對資料進行分析,首先需要在資料庫裡邊把這個資料提取出來,提取到阿裡雲的大計算服務 MaxCompute 裡面,很類似于我們傳統做數倉的時
候 ETL 的一個過程,會利用阿裡雲的大資料開發平台對資料進行分析和處理。
使用它可以快速便捷的去開發我們資料植入或者資料這樣的一個流程,這個就是會使用大資料開發平台和大資料制造,結果是一個資料分析結果,還需要前端的應用資料對分析出來的結果展示出來。
MaxCompute 的技術特點
對于 MaxCompute 的一些技術特點主要有一下幾點:
(1)分布式:分布式叢集、跨叢集技術、可靈活擴充。
(2)安全性:從安全性來講具有自動存儲糾錯、沙箱機制、多分備份。
(3)易用:具有标準 API、全面支援 SQL、上傳下載下傳工具。
(4)權限控制:多租戶管理、使用者權限政策、資料通路政策。
MaxCompute 的使用場景
對于 MaxCompute 的使用的場景,可以使用 MaxCompute 搭建自己的一個
資料倉庫,同時,MaxCompute 還可以提供一種分布式的應用系統,比方說可以
通過圖計算,或者通過有效的寬幅的方式,可以搭建一個工作流;比方說資料分析
并不是說隻分析一天就不分析了,其實是周期性的。如果資料每天要分析一次,可
以在 MaxCompute 裡面生成那樣的任務工作流,設定一個周期性的排程,每天要
讓它排程一次,MaxCompute 可以按照設計好的工作流,調動周期,然後去運作;
MaxCompute 在機器學習裡面也是有用的,因為機器學習會用到 MaxCompute 分
析出來的資料,其他相類似的服務對資料進行分析處理,分析出來的結果資料放到機
器學習平台裡面,讓機器通過一些算法一些模型,去學習這裡邊的資料,生成一個希
望達到的一個模型。
大資料開發套件 DataIDE
另 外 一 個 除 了 MaxCompute 之 外 還 有 一 個 會 用 到 一 個 大 數 據 開 發 操 作DateIDE,大資料開發套件 DataIDE(現名:資料工場 DataWorks)提供一個高效、安全的離線資料開發環境。為什麼介紹它呢?是因為 DateIDE 隻是對資料任務工作流的一個開發,其實底層的資料處理,資料分析,都是在 MaxCompute 上完成,可以簡單了解為DateIDE 就是一個圖象化的資料開發的服務,它是為了幫助我們更好去使用 MaxCompute。也可以看到,這我們可以在 DateIDE 進行一個開發,不需要直接在MaxCompute 裡面進行開發了,在 MaxCompute 開發的一個效果,跟在DateIDE 裡面開發的效果對比。
MaxCompute 的應用開發流程
MaxCompute 的應用開發流程一共需要六步分别是:
(1)安裝配置環境
(2)開發 MR 程式
(3)本地模式測試腳本
(4)導處 jar 包
(5)上傳到 MaxCompute 項目空間
(6)在 MaxCompute 中使用 MR
下面我們以一個好友推薦的事例來詳細講解一下這個過程。首先需要去安裝MaxCompute 用戶端,使用它的好處是可以在本地通過指令的方式去遠端使用阿裡
雲的 MaxCompute,在本地隻需要配置MaxCompute 資訊就可以。另外還需要去配置自己的一個開發環境,因為現在阿裡雲的 MaxCompute 主要是兩種語言,一種是 Java 一種是 Eclipse。然後建立項目,在開發建立項目的時候,大家可以看到這個紅包,這個紅包就是需要配置本地的用戶端的資訊。在進入到寫代碼的過程 。
接下來就是簡單的測試,開發之後要測試,這個代碼是不是按照設想的方式去工作的。接着這邊輸入的是一個測試資料,這個輸出的資料類别,就是輸出的這樣的一個表格,表格有三列,第一類是使用者 A,第二類是使用者 B,第三類是兩個潛在的共同好友的數量,隻需要關注這三個資料就可以,然後就可以測試。接着第三個本地運作的資料的代碼,運作的結果就是通過本地的開發測試,在本地測試的時候這邊有一個
資料,你第一步需要選擇是使用哪一個的一個項目處理。第二個要選擇輸入表和輸出表,要告訴他輸出表是哪個,輸出表的目的是什麼,告訴這個程式,你輸出的結果儲存在表裡面,配置好點選運作這個結果就出來了。
本地開發測試成功之後,接着要把它打成一個 Jar 包,然後上傳到阿裡雲上,就是上傳到 MaxCompute 的叢集裡邊。第二個打完 Jar 包以後添加資源,下面就把剛剛輸出的 Jar 包,通過資源的管理,把剛剛輸入的 Jar 包上傳上來。本地開發測試好的一個 MR 的 Jar 包已經上傳到 MaxCompute 叢集裡邊。
上傳好了之後就可以使用它,去建立一個任務,然後這個任務去起個名字,這個任務跟哪一個 Jar 包相關聯,接着是 OPENBMR,我們選的是 MR 的程式,是以裡面選的是 OPENMR 子產品,生成這樣的一個任務,進入到編輯頁面,在編輯頁面裡面。首先告訴它,這個 OPENMR 這樣的一個任務,使用的是上傳的好友推薦的一個 Jar包,最下面告訴它 Jar 包裡面的程式的邏輯是什麼,在這個裡面制定好之後點選運作結果就會出來。這個就是我們在本地開發測試,把資源上傳到 MaxCompute 的叢集裡面,接着在叢集裡面去使用我在本地開發好的 Jar 包,這個就是整個的一個開發和部署的一個流程。