官宣 | 移動網際網路+智能營運體系搭建=你家有金礦啊！

每個企業都有許多的資料，但能否将資料轉化成商業價值，是企業非常關心的問題。阿裡巴巴曾自嘲是一家坐在資料的金礦上啃着饅頭的企業，前幾年集團積累了很多的資料，但這些資料并沒有真正應用起來，受限于幾個原因，比如大資料的技術架構還不成熟，營運團隊對資料應用的意識還不是很強，但今天，資料在阿裡巴巴的應用範圍已經越來越廣泛。

本文根據2018年雲栖大會杭州站移動研發平台EMAS專場上，阿裡巴巴資深技術專家元綽的演講整理成文，介紹面向移動網際網路時代的智能營運體系搭建，主要分成三塊内容：第一，智能營運的使命和典型應用場景；第二，個性化推薦系統的架構；第三，AB在智能營運系統中的應用。

一、智能營運的使命和典型應用場景

衡量一個智能營運系統做得好不好，目标非常明确，就是看能不能幫企業實作資料的增長，因為增長是企業最核心的訴求。

要實作企業智能營運，首先要進行資料營運閉環的建設。傳統的BI，收集資料，給老闆産出報表，讓老闆做決策，但智能營運系統，最重要的是把資料應用到實際業務場景中，形成資料閉環。收集資料，通過模型的訓練轉換成系統的預測能力，運用到實際業務場景中，最後把使用者的使用資料回報給我們的系統。經過幾輪疊代，整個系統的預測能力會越來越強。

企業希望提升業務結果，業務結果的提升依賴于平台上的使用者對我們的認可。EMAS的業務統計子產品可以承擔資料采集的工作，了解了使用者的行為，機器智能的作用就在于将使用者的行為資料轉換為企業的營運行動。

具體的流程可以分成這麼幾個部分：首先基于原始資料，以新客為例，根據使用者對冷啟動階段的熱門資料的點選情況，對使用者進行第一次打标，我們大體識别該使用者屬于什麼樣的類型；其次，我們做嘗試性推送，比如資訊或者産品，使用者根據我所推送的資訊或者産品，會有相應的點選行為，經過幾次互動，機器對該使用者的了解會加深。最後，經過使用者跟平台的多次互動後，企業配合相應的營運政策，比如促銷，轉化效果就會有比較明顯的提升，這是智能營運系統的基本流程。

我們對使用者的全生命周期了解，是從新客到老客以及老客幫你做傳播這一整個階段，時間周期還是比較長的。針對一個新使用者，你直接把希望他下單的資訊推送給他，效果往往不會特别好。是以必須要對使用者整個生命階段做一些細緻的分析。

智能營運的三個典型的應用場景：

第一，千人千面。淘系在PC時代也做過推薦相關的工作，但效果不好。但到了無線時代之後，個性化推薦的效果就提升明顯，源于使用者行為發生了很大的變化。無目的性，碎片化，随時随地。我們能否将使用者給我們的碎花片時間充分利用好，讓我們的消費者一下子對我們的産品感興趣，需要企業對使用者要有非常深的了解和洞察。

第二，精準營銷。營銷活動前，分析所面向的人群，具體的定價政策，以及在這樣的定價政策下的銷量預測，這樣企業就可以預先知道KPI的完成情況。

第三，智能選品。前面講的更多的是，産品如何更多與使用者進行互動，智能選品适用的場景是我們對目标客群有認知，希望觸達我們原來沒有觸達到的那批使用者。超市希望吸引年輕人，就需要調整貨品結構，把年輕使用者吸引回來。盒馬、淘寶心選，是阿裡做的比較好的案例。

二、個性化推薦系統架構

接下來，給大家介紹一下個性化推薦系統。個性化推薦在阿裡巴巴集團這幾年有很多的沉澱。以手機淘寶首頁為例，很多地方都做了個性化，比如入口圖，每個APP都有子頻道，子頻道的入口圖大部分用的是設計師做的靜态圖，如果用子頻道的資料跟使用者做個性化比對，做千人千面的入口圖，入口點選的轉化會有很大的提升。

好的個性化推薦需要有哪些注意點：

第一，工程實作。個性化推薦，傳統的實作方法，是截止某一個時間點給使用者計算一個推薦清單，每天把這個資料重新整理一遍。這樣做的問題是什麼？使用者的資料量一直在增長，相應的存儲成本也會随之增長，企業投入成本會很大。是以系統設計的時候需要考慮借助标簽的能力。另外，每個人對标簽對應的貨品排序應該不一樣，我們要增加二次排序，要保證每一個人的推薦清單雖然貨品一樣，但是順序有差異。

第二，實時推薦。離線推薦主要是基于曆史資料，實時推薦是基于當天的資料，當天給使用者做推薦，轉化率往往最高。但是對我們的挑戰是什麼？第一，必須有實時計算的能力，因為使用者給我們的時間非常少，如果你延遲五分鐘，基本上使用者就流失了。第二，從算法角度來講，必須要做一個平衡，你是基于曆史推薦資料，還是當天的實時資料，到底哪個轉換率最高，要做一個平衡。

第三，時間和空間。拿電商來說，羽絨服或者衣服都有季節屬性，羽絨服适合冬天穿，電子産品有新老款，判斷一個使用者從來都隻買新款，你就應該把新款推薦給他。另外，推送有時間衰減效應，不能一直推相同的貨品。時間和空間是必須考慮的兩個次元。

第四，發現性。大家在做個性化推薦的時候，模型基本上都是以一個具體的目标來做優化，但這裡會有一個什麼問題呢？會産生很嚴重的馬太效應：第一，我的推薦依賴于我的曆史資料。為什麼給你推衣服？是因為你老是看衣服，模型判斷推衣服的轉化肯定是最高的，我推薦了，然後你又點了，這樣又産生了一條曆史資料，我發現效果确實很好，那模型下次推什麼？肯定還是給你推衣服。但實際上每個人的興趣愛好很廣泛，我給你推的品類越來越窄，最後發現你的行為也越來越窄，這跟人的實際特征是不比對。我們要在推薦系統裡擴充品類的寬度。第二，推什麼樣的産品轉化率最高？肯定是爆款，不管是金融行業還是其他的行業，爆款轉化率最高，模型判斷推爆款的轉化比一般産品的轉化要更高，導緻什麼結果？系統推薦的産品範圍也越來越窄，這是很嚴重的問題。就是說給使用者推薦的品類越來越窄，産品範圍越來越窄。是以在整個模型過程中，去嘗試推薦一些他可能原來曆史記錄裡面不存在的東西，去做一些嘗試性的發現，這是非常有意義的，否則對短期收益有好處，但是對長期收益有影響。是以轉化率很重要，但是發現性更重要，品類拓寬會讓你的業務體量越來越大，産品也一樣，爆款之後肯定有新品，新品也需要變成爆款。

第五，髒資料。髒資料一般分兩類，第一類是無效資料，比如說“雙十一”，因為當天他們的行為非常特殊。“雙十一”當天買了你平時可能不會買的東西。這樣的資料對日常推薦并沒有太大的幫助，這些資料必須要剔掉。第二類資料是作弊資料。像刷信用、刷積分的資料量往往很大，這樣的資料如果不剔除掉，最終預測的結果和你原來的真實值之間的偏差會非常大。

最後介紹一下阿裡巴巴實時推薦的系統架構，大概會分成這麼幾個部分，有EMAS資料統計子產品，采集資料，拿到資料之後要對資料進行加工和訓練，形成模型後把資料應用到生産環境。生産環境，一般來說是存儲到圖資料庫，因為它是網狀結構，最後是一個非常簡單的API，可以簡單調用資料。系統中有一塊很重要，就是在模型訓練過程中必須要具備支援行業經驗的輸入，因為我們在實踐過程中發現，今天通用的模型去疊加一些行業規則，它的效果是非常好的，因為每個行業有每個行業的特殊性，今天一套通用算法想應用到所有行業是不現實的。這是我們個性化推薦系統的簡單系統架構圖，它一定要是一個閉環，資料一定要轉起來，因為資料不轉起來我們就不知道我推薦的結果是否準确、對使用者的洞察是否準确，我們要必須保證資料運作一段時間後，資料是整體往上漲的。

三、AB在智能營運中的應用

最後給大家講一下AB測試在智能營運中的應用。大家也知道今天算法的發展非常快，像前幾年深度學習很火，這幾年強化學習，一些新的算法發展很快，我們在模型疊代過程中需要應用新的算法。但一般來講，我們不一定能确認哪個算法的效果更好，我今天線上下做非常多的評測，但最後還是要到生産環境去做實驗。我們可以做分桶測試，基準桶和測試桶，測試桶我們用一個模型，基準桶用另一個模型，比較兩個模型的效果。實際在應用過程中，我們在做AB測試前，必須要做AA測試，保證在實驗之前兩個桶的資料是一模一樣的，這個時候你再把一個桶的模型換掉，資料是可信的。

官宣 | 移動網際網路+智能營運體系搭建=你家有金礦啊！

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希