天天看點

【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

雲栖号案例庫: 【點選檢視更多上雲案例】 不知道怎麼上雲?看雲栖号案例庫,了解不同行業不同發展階段的上雲方案,助力你上雲決策!

公司簡介

小紅唇App是國内最大的一款針對15-25歲年輕女性的垂直視訊分享社群和社交化電商平台,業務模式為短視訊美妝社群電商。我們為使用者提供了豐富的平台内容、活躍的社群生态和優質的産品選擇。

業務痛點

  • 資料倉庫:

1.需要在打造線上數倉,線上完成資料開發、資料清洗和轉換等任務。

2.通過數倉建構可視化資料展示的應用,即時展示營收資料,便于營運和決策快速調整。

  • 推薦引擎:打造短視訊和圖檔的推薦引擎,需要具備便捷性和靈活性的線上産品,支援多種算法和過濾體系。
  • 算法平台應用:

1.基于視訊元資訊的回歸:作為一個UGC的平台,使用者上傳内容的品質是參差不齊的,為了保證平台内容的品質。編輯進行了很多精選和挑選的工作。如何提升編輯的篩選效率是目前需要解決的關鍵問題。

2.近義詞:需要有一套高效的算法優化搜尋的體驗,使使用者在搜尋時更容易獲得目标内容。

3.業務總線:需要提升一些應用場景(搜尋熱詞統計、實時熱度統計)的響應速度、實時觸發業務事件,支撐類似于發送優惠券、推送消息等業務。

資料倉庫解決方案

【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

小紅唇App的資料來源主要為兩個方面,當所有資料都搬到MaxCompute平台上之後,在其上做的資料開發更加輕松。

  • 業務伺服器産生的API日志,代表着使用者的各種行為資料。使用者行為日志是通過阿裡雲的DataHub元件把API日志采集到MaxCompute平台上,隻需要在數加的IDE裡做一些簡單的配置即可将資料完整的遷移過來。
  • 伺服器産生的各種交易資料,比如使用者發的文章、買的東西。業務資料是通過阿裡雲提供的DATAX工具載入到MaxCompute平台上,業務資料庫已經完全遷移到了阿裡的RDS平台。

    在MaxCompute平台上,可以用類SQL的語句編寫資料清洗和轉換的執行任務,平台同時提供管理器對任務進行排程和管理。在數倉之上,建構了很多應用,最直接的就是QUICK BI。社群内容營運和商品營運都是依賴于實際的營運資料來做進一步的決策和營運商的政策調整,QUICK BI對營運的指導非常大。

  • 阿裡雲的QUICK BI不需要開發可視化的前端,隻需要在數加的data IDE裡面做相應資料任務的編排就可以很容易的通過QUICK BI産品展示出來。
  • 在QUICK BI可視化的界面上不僅有各種圖表的展現還提供了一定功能的多元資料分析,極大提高了營運效率。

推薦引擎解決方案

【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

推薦引擎的整體架構如上圖所示。虛線框以内是推薦引擎産品本身的内容。我們需要做的僅僅是把我們的資料按照推薦引擎需要的格式準備好,在MaxCompute裡面把對應的表都建好。主要應用場景是短視訊和圖檔的推薦,推薦引擎打理好一切之後,得到推薦結果以API形式供業務伺服器調用。

除了便捷性,推薦引擎還提供了非常強的靈活性。主要做了首頁推薦和詳情頁推薦,首頁推薦主要是用基于協同過濾的算法來計算出結果,詳情頁推薦對阿裡雲的模闆進行了修改引入了基于TFIDF算法的計算節點來加強了相關性的推薦。同時,推薦引擎還支援A/B TEST測試體系,對模闆算法和參數的細微調整都可以定量化的分析和計算出來。推薦引擎的另外一個優勢是可以和阿裡雲實時計算相結合,把使用者的資料實時導入計算引擎中,實時對推薦結果進行修正。

算法平台解決方案

  • 基于視訊元資訊的回歸
【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

作為一個UGC的平台,使用者上傳内容的品質是參差不齊的,為了保證平台内容的品質。編輯進行了很多精選和挑選的工作。如何提升編輯的篩選效率?為此,我們選擇了阿裡雲的機器學習平台。通過視訊的元資訊(時長,幀率,碼率,描述内容,亮度,對比度,分辨率,銳度)的抽取,形成了特征矩陣,随機選取了已有視訊資料;以是否經過編輯精選做了有監督的邏輯回歸訓練,訓練出模型;對新的視訊應用這個模型給出預判評估,作為視訊編輯的參考, 及搜尋推薦的影響因子。

具體的過程如上圖所示。我們需要将自己的視訊資訊進行量化,通過拖拽、拼接建構起訓練的模型。最左邊這張圖應用了邏輯回歸、線性回歸、随機森林三種模型進行訓練,目前選用的是邏輯回歸的模型。在算法平台訓練完模型之後會非常容易的導入到DateWorks中,準備好的新視訊資料就會把模型節點加進去,得到對應的預測打分。最右邊的圖是把評分結果通過QUICK BI展示。整個過程沒有太多的工作量,隻需要在平台上做一些配置就可以完成整個視訊元資訊的回歸和訓練。

  • 近義詞
【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

近義詞主要是為了優化搜尋的體驗,具體是把使用者釋出的内容、視訊的名稱、描述、使用者的标簽、評論等語料資訊通過阿裡雲實時計算word2vec算法擷取詞向量,通過餘弦相似度計算擷取近義詞,通過人工篩選、錄入到搜尋引擎的同義詞庫中提升搜尋體驗。

最上層是使用者輸入的中繼資料,通過幾個步驟,以及K-means聚類算法做了一些分析。

  • 業務總線
【雲栖号案例 | 網際網路】小紅唇APP通過大資料計算平台21天内搭建推薦系統

最開始使用阿裡雲實時計算隻是為了提升一些應用場景(搜尋熱詞統計、實時熱度統計)的響應速度。但是,通過阿裡雲實時計算已經截取了所有的業務事件,那麼是否可以通過實時計算将業務事件實時觸發出來支撐類似于發送優惠券、推送消息等業務?實踐證明了其可行性。目前,通過阿裡雲實時計算這套業務總線體系的時延控制在了秒級。

上雲價值

小紅唇App擁抱數加已有半年光景,對數加的體驗非常好,其感受主要為以下四點:

  • 不需要像傳統大資料業務一樣建構一個非常複雜的Hadoop棧,并且對其進行運維,節省了金錢和時間成本。
  • MaxCompute的整個生态系統設計的比較完善,無需專職資料團隊,降低了人員成本。
  • 得益于數加的生态,可以在21天内搭建推薦系統。
  • 借助阿裡雲實時計算非侵入實作業務總線,滿足了絕大部分場景。

相關産品

  • 大資料計算服務 · MaxCompute

MaxCompute(原ODPS)是一項大資料計算服務,它能提供快速、完全托管的PB級資料倉庫解決方案,使您可以經濟并高效的分析處理海量資料。

更多關于阿裡雲MaxCompute的介紹,

參見MaxCompute産品詳情頁

  • 雲資料庫RDS MySQL版

MySQL 是全球最受歡迎的開源資料庫之一,作為開源軟體組合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一環,廣泛應用于各類應用場景。

更多關于雲資料庫RDS MySQL版的介紹,

參見雲資料庫RDS MySQL版産品詳情頁
  • Quick BI

Quick BI 專為雲上使用者量身打造的新一代智能BI服務平台。

更多關于Quick BI的介紹,

參見Quick BI産品詳情頁
  • 實時計算

實時計算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿裡雲提供的基于 Apache Flink 建構的企業級大資料計算平台。在 PB 級别的資料集上可以支援亞秒級别的處理延時,賦能使用者标準實時資料處理流程和行業解決方案;支援 Datastream API 作業開發,提供了批流統一的 Flink SQL,簡化 BI 場景下的開發;可與使用者已使用的大資料元件無縫對接,更多增值特性助力企業實時化轉型。

更多關于實時計算的介紹,

參見實時計算産品詳情頁
  • DataWorks

DataWorks是一個提供了大資料OS能力、并以all in one box的方式提供專業高效、安全可靠的一站式大資料智能雲研發平台。 同時能滿足使用者對資料治理、品質管理需求,賦予使用者對外提供資料服務的能力。

更多關于阿裡雲DataWorks的介紹,

參見DataWorks産品詳情頁

【雲栖号線上課堂】每天都有産品技術專家分享!

線上課堂位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK