天天看點

阿裡文娛永叔:利器or成本損耗?算法不是黑匣子

2018年9月16日,由AICUG人工智能技術社群、Datafun社群、博學聯合主辦的2018 AI先行者大會于杭州召開,來自阿裡文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國内不同行業公司的AI實踐經驗。集百家之長,将AI研究與應用領域最新的成果進行分享呈現。

作為實作人工智能的一大途徑,機器學習與業務的深度結合一直是技術愛好者們關注的方向,會間,我們邀請到阿裡商業機器智能算法團隊及優酷算法技術團隊負責人王曉博(永叔),圍繞機器學習的落地應用實踐展開問答,以下為正文:

CSDN:首先,請您做一下自我介紹,包括您所關注的技術領域,以及您所在的團隊等。

永叔: 我10年博士畢業,主要從事資料挖掘方向,先後在百度搜狗負責廣告政策算法團隊,工作内容涉及展示廣告和搜尋廣告。15年3月加入阿裡,主要負責淘寶主站的推薦,即淘寶商品的資訊流推薦,例如首頁的猜你喜歡。從今年開始同時負責兩個事業群的算法團隊,其一是淘寶技術部商業機器智能的算法團隊,主要涉及2B的商家端智能,同時也有2C的業務,包括内容及商品的推薦。在文娛方面主要負責整個優酷的算法技術平台,包括優酷的搜尋、推薦、内容了解、會員的智能營銷,以及後端的雲端引擎平台等。技術領域方面,我主要關注兩個方向,一是計算廣告學,二是這幾年一直從事的推薦算法。

CSDN:請談談您及團隊在現階段的研究側重點或下一步研究和實踐(例如應用到哪些領域)計劃?

永叔: 目前我們(優酷)的研究重點包括:

① 内容了解:從過去的整體内容了解到元素級的内容了解,我們的目标是盡量縮小機器和人在看完一段視訊後所能擷取資訊的差距;

② 多模态的視訊搜尋和推薦;

③ 小樣本和領域知識相結合。

CSDN:是什麼契機讓您選擇了大規模分布式機器學習這一研究分支?

永叔: 我的博士課題是複雜網絡(Complex Network),也就是圖挖掘方向,但是在我加入百度廣告政策算法團隊時,團隊裡PhD比較少,那會大家去高校、研究所的比較多。而當時(09、10年)也正是機器學習被大批量引入網際網路公司的時期,我就被“丢到”一個我完全陌生的領域——點選率預估,參與網盟廣告的點選率預測。點選率預估就是一個典型的0-1二分類問題,但由于其面臨的資料體量非常龐大,為了盡可能提升預估的準确率,我們用了半年的資料來做預估,是以可以說我是由于業務原因,而進入了大規模機器學習領域。

CSDN:在您看來,機器學習在人工智能的發展中扮演着怎樣的角色?深度學習對機器學習的意義?

永叔: 人工智能領域其實很寬,從最早大家提及的人工智能,到後來逐漸代之以機器智能,機器學習為人工智能提供了一條可以實際應用落地的道路。因為過去談到人工智能就是下棋、語音識别等,而從80年代末90年代初,統計機器學習逐漸占據壟斷地位之後,該技術可以與任何行業進行深度結合。無論資料量多少,機器學習技術都能幫助提效,且具備一定的預判性。

深度學習本身并不是一個很新的概念,也就是六七十年代就曾提出的人工神經網絡(ANN),其本質相當于把所有事情變成一個學習非常複雜的非線性函數,模型的參數數量代表了模型本身的模組化表達能力,比如學習一個簡單的線性函數,還是一個超越函數,甚至一個非常複雜的邏輯函數,深度學習相當于提供了一個可以規模化的方法,每個學習單元就像是仿生學裡的神經元,都是一個非常簡單的sigmoid邏輯斯蒂回歸的二分類分類器。它和Boosting比較像,由許多弱分類器組成強分類器,隻不過用各種各樣不同的網絡結構将其堆疊起來,能夠形成一個比較複雜的具備較強表達能力的學習模型。

深度學習起初在圖像和語音這兩個領域應用得比較好,而最近三年,其在自然語言進行中逐漸形成了一個各方面開花的趨勢。深度學習為機器學習提供了一個子集,但是這個子集利用現在強大的硬體資源能夠把問題本身的模組化模型表達能力推到一個新高度,一些過去無法學到的東西現在都可以通過這種技術完成學習。

CSDN:推薦系統的冷啟動問題算是産品推薦中的一大痛點,也是一個比較大的話題,對此,可否結合一些相對簡明的例子和大家聊一聊您及團隊在這方面的經驗總結?

永叔: 自推薦系統誕生起的三十餘年間,冷啟動就是一個伴随其始終的問題,即當你對于你的使用者所知甚少,或是一無所知的時候,應該如何進行推薦。無非兩種手段,第一個手段是盡可能擷取更多相關資訊,例如在初期通過問卷方式采集使用者的興趣資訊。阿裡旗下有諸多APP,而我們的使用者也擁有統一的賬号,以前段時間推出的88會員為例,我們在完全不了解新使用者在文娛領域興趣的情況下,依然可以将淘寶、餓了麼等平台的偏好相關的資訊和資料作為一個隐空間去學,這些資訊也可以用于遷移學習,可以和文娛的視訊推薦共享特征。此外,location也是一大資訊來源,當坐标很接近時,例如同小區的住戶,至少身份地位或收入差不多,這些資訊可以用于做人群推薦。是以,處理冷啟動問題的第一個大思路就是盡可能多地擴充使用者資訊的擷取次元,用遷移學習的方式解決當下的推薦子領域中資料資訊缺失地問題。

第二個手段則是建立在對使用者一無所知的狀态下,即什麼資訊都拿不到的情況。這種情況下,我們可以采用探索和發現(E&E,Explore and Explored)政策,也可以用強化學習。先以随機試探的方法切入,比如一共有一千個标簽,我們可以選擇一些熱門标簽開始試探,測試使用者對哪些東西有回報,即産生了點選或觀看,再在此基礎上延展開。此處的探索與随機探索之間的差別就在于它可以設定一個獎勵函數,在加了限制的條件下,對冷使用者産生的有效觀看次數或點選次數做線上學習,進而降低探索過程的損失。

CSDN:較之電商平台,視訊網站類平台在個性化推薦的落地問題上,是否存在需要特别注意的方面?

永叔: 電商和視訊在推薦方面的差異還是比較大的,因為電商商品次元的資料标準化做得相對比較好,像是衣服的材質、品類等,可以算作結構化的資料特征。雖然在電商裡情境下,服飾屬于非标類,但我們可以擷取的屬性資訊其實非常多,但在視訊業務中,我們沒有多少标準化屬性特征,使用者也不像電商中那樣,有“潛客”、“回頭客”、“老客”或是“新客”這樣非常清晰的分類和興趣标簽。影劇綜漫對其使用者認知和“貨”的認知分類是沒有統一标準的,基本上每個公司乃至團隊之間都有所不同,是以資料上有很多異構性。此外,電商情境下推薦的特色是貨品數量遠大于使用者數量,而長視訊恰恰相反,這也是視訊推薦挑戰的一個來源。

而視訊之是以為非标,是因為我們未将其分解到元素級——了解都還停留在業務層面,類似于偵探劇、愛情劇這樣的分類,我們可以分出各種各樣的業務目标,但在原子标下,其本質都會變成其中的人物、時間、地點和活動,而這些東西是可以标準化的,換言之,表達方式和表達語言可以标準化,這些東西标準化之後,技術上就比較好處理了,也可以通過類似于OWL這樣的語言,來組織上層應用的标簽體系。

接下來是将少量視訊内容推給大量使用者的問題。這種情況下,精品長視訊推薦由于數量限制常常陷入困境,為了讓使用者形成長時間的觀看,就需要擷取其閑暇時段的資訊。過去的推薦往往按照點選率排序,而目前則常會用到以短代長的方法,這就需要進行使用者時間的預測和區分,例如手機端可以通過複雜場景分析、傳感器識别等手段,判斷其所處情境:如果使用者正在相對放松休閑的環境中,即采取長視訊推薦;如果是正在移動中的碎片化時間,就可以先推一些花絮,達到引導訂閱稍後再看的目的,這時,我們就從單純的點選率排序轉為預估未來的“預約單”形式,從即時回報變為即時+延時回報。

CSDN:您如何看待谷歌的AutoML?

永叔: 我們之前談到的小樣本學習就與此相關,我們團隊花了約一年的時間打造了阿裡支援千億特征的海量機器學習平台XPS (eXtreme Parameter Sever) 。事實上,在這類機器學習平台上,大家都一窩蜂地去用Tensorflow,但Tensorflow在企業中的性能卻很有限,對外開源的版本在runtime優化上有不小的問題,很難解決萬億樣本、千億特征的實際問題,是以各大公司都會有這種自己定制的面向海量資料場景特定優化的訓練系統。這裡涉及兩大法寶,一是調網絡結構,二是調參數。每一層有多少個激活神經元,學習的各次元(dimension),feature dimension的size是多少,網絡結構長什麼樣子,是用卷積還是殘差層……大家會變換各種不同的組合,如果是RNN這樣的回報式網絡的話,什麼時候引入回報邊,什麼時候在網絡局部引入多元的回報層——網絡結構設計會越來越複雜,但好處是百花齊放,大家在一個巨大的空間内展開探索,是以現在深度學習的文章是最容易灌水的,但這些在未來肯定會被終結,這就是AutoML在做的事情。

例如很多人說學特征,是學1024位,還是512位,還是2048位?到底學多少次元?所有輸入層特征都是一個緯,這個空間非常大。假設有一千萬個特征,每個都是1024位,不同的特征在樣本中的覆寫率不同,其本身的表征不一樣,以男女性别特征和圖像特征為例,兩個人表達的資訊量完全不一樣,因為圖像的空間非常大,一個512×512的圖像,把RGBA中的Alpha通道去掉,RGB這三個通道中,每個通道都是256的三次方,再乘上512的平方,這是一個巨大的空間。但是男女隻有兩個值,如果也用一個1024位的特征去學,看上去是對齊了,但實際它的覆寫率又很高,是以特征學習很容易出現問題,是以現在的AutoML這要解決的幾類問題包括:

① 網絡結構的動态設計;

② Feature embedding size的動态學習;

③ 網絡模型中需要根據資料做動态調參,包括每一層需要多少個神經元,需要多少次元的參數表達。對于過去需要耗費很多人力的負責人肉調參、調結構,AutoML這個架構為未來提供了一個解決思路;

④ 網絡壓縮,因為現在越來越多的模型會放在手機端上運作,像是最新推出的A12處理器裡就有專門的神經網絡處理單元(NPU),它就是為了在手機上做加速。網絡壓縮也要去調大量的參數,而網絡壓縮的核心任務就是将現有的學習精度比較高的大模型,壓縮到一個小的尺寸,像是将一個幾個G的模型壓縮到幾十兆。例如淘寶的圖像和美實驗室正在做的OCR光學字元識别模型,我們可以把通用的幾十兆的模型壓到幾兆,精度隻有很小的損失。

這些都是AutoML未來的發展方向。人類由懶惰促進技術進步,但凡是覺得很複雜瑣碎的問題,最終都會誕生一些相應的技術予以解決。

CSDN:下面,請您聊聊搜尋領域應對大促場景的多模态和線上學習技術。

永叔: 這些年來的大促對于搜尋而言确乎挑戰頗多,現在的大促已經分成了三段,分别是造勢期、預熱期和正式期。這與長視訊推薦所面臨的情況很像,因為以前的雙十一大促就是10号開始,11月11日結束,後來開始從10月底起分三段進行,前後持續近一個月的時間,這帶來的問題九四每個階段的優化目标都不同,例如在造勢期更多傾向于産生點選量和曝光,主要用以營造影響力,因為這個時候很多商家的報名還沒有結束;第二個階段(預熱期)中,我們引導的其實是加購,一般會有上百萬的尖貨池,類似于優衣庫這樣的超級尖貨,往往不需要我們做刻意推廣,有些使用者都會直接把店鋪裡所有參加活動的衣服全部浏覽一遍,但面對上百萬的尖貨池,我們還是希望能夠通過搜尋和推薦的技術将更多商品呈現給使用者,産生更多的加購,是以加購率是這個階段的一個重點;最後在大促當天則是以成交優先,主要以GMV為第一排序名額。是以這個時候你會發現,在這幾個階段中,最開始是以延時回報為最大目标,後來則以即時回報為最大目标,這是在整個排序和召回中極為複雜的一項挑戰。大促當天的流量高峰基本上就是圍繞在0點前後,過去大約是十分鐘的時長,現在的戰線則拉長了很多,去年雙十一的最高峰就持續了将近50分鐘,現在0點集中的大多是付預售尾款的使用者,而很多大家去搶的時段會呈現出分散的狀态。此外,當天的搜尋排序就需要考慮到使用者可能搶不到且關注度較高尖貨的可替代貨品,甚至是可替代性品牌,當使用者所關注的那些品牌都已經售謦時,要能夠及時安排替換。再到晚上八九點的時候,馬爸爸還會為大家發返場紅包,這時搜尋與推薦的政策就是選擇貨單價并不是太高,且能夠把紅包用上的商品。而且對于不同的東西,每個人的價格彈性也不同,是以此時推薦的商品品類在與使用者興趣相關之餘,要注意并非強興趣相關,核心是價格彈性和紅包能夠帶得動的GMV。是以在大促當日的最後時段,整個GMV全靠搜尋在沖,這是典型的業務算法政策與實際技術算法進行更深度結合的案例。

CSDN:如何利用遷移學習解決了手淘詳情頁“看了又看”的技術局限?

永叔: 詳情頁的“看了又看”可以說是淘寶推薦中最古老的場景了,目前的确面臨諸多瓶頸,其中的一大困境在于,此前我們将詳情頁歸入商家私域,交由商家自己控制,其中有兩個限制,一是同店,二是類似商品,但對于部分商家而言,其侯選集會非常小,進而面臨無貨可推的問題。為此,我們推出了一個子產品叫做“鄰家好店”,也就是說可以形成一個商家聯盟,比如某個商家是賣數位3C的,其與服飾商家沒有競争,就可以按照自主意願形成的聯盟,進而我們的推薦商品的候選空間就會擴大,這一子產品的核心是提升每一個UserView的價值。此外,遷移學習在這方面也有其發揮的餘地,我們可以将使用者在服飾領域的行為遷移應用到數位3C中去,包括使用者的分享、購物沖動等特征和偏好都可以進行遷移。

CSDN:請您談談機器學習在優酷短視訊搜尋場景下的技術探索。

永叔: 短視訊搜尋場景下的一大挑戰就是能夠擷取的Meta結構化資訊非常少,是以對于短視訊本身的了解,我們直接将其轉化成一個打标的任務,也就是短視訊的标簽化。而标簽化的難點包括:

① 标簽次元和标注資料的量級巨大。短視訊推薦的存量很多,且每天都有很多新增視訊,是以可能會有上百萬個标簽,其中,一些頭部标簽(如“搞笑”)因為覆寫的視訊很多可以學得很準,但很多長尾标簽因為關聯視訊極少,往往面臨缺少資料的問題。對于這類小樣本标簽,就需要用到機器學習的Feature Learning來解決小樣本和領域知識相結合的問題,

② 排序學習。Learning To Rank(排序學習)在短視訊的資訊流推薦中是一個非常新的問題。大約10年前,MSRA的劉鐵岩博士開創了Learning To Rank這個研究方向。過去我們基于的一個假設前提是我們資訊流(feeds)展示出來的時候,使用者一眼就全都看到了,但是這對目前的手機端而言并不适用,因為一個手機螢幕通常隻顯示五個到六個視訊,甚至整個短視訊的資訊流卻是無限的(幾百到上千)。在這樣的情況下,排序學習就不再是假設全都看到,而是需要實時互動。我們從過去的點選率目标轉變成了點選數目标,從效率名額變成了規模名額,點選數的多少取決于曝光點選率和曝光量,也就是使用者持續往下滑動的長度,我們正在由單一目标優化向多目标優化轉變。對于這一問題,目前一種比較常用的思路就是利用強化學習來處理,就是當使用者滑動到一個視訊卡片時,可以處于多種狀态,包括疲勞了→不想看了→離開,也可以有興趣→點進去→觀看不同的動作,都會産生相應的action,例如下滑、點選、結束Feed流浏覽,或是長按不喜歡、點贊,點踩等。結合這些action,我們可以通過強化學習的方式完成目前的reward function設計,這是一個與使用者實時互動的過程,一切新的行為都會為後續的實時推薦形成一個非常強的正信号回報。這在推薦的資訊流中被稱作互動式推薦,就是能夠讓使用者與系統互動,這也是長資訊流推薦對于排序資訊引入的一個新問題,短資訊流已經成為過去,如今有互動的長資訊流與強化學習相結合,帶來了新的Topic,現在很多手機APP的首頁都已經改成長資訊流了。關于這類問題,學術界無法解決,因為其不具備實驗環境,是以該問題歸根到底必須依靠企業實踐來完成。

CSDN:對于機器學習算法相關就業飽和問題,您怎麼看?人工智能的發展前景?

永叔: 近年來,計算機行業中的各個工種都在面臨這樣的問題。事實上,Top級的人才永遠不會飽和,而現在趨于飽和的往往是工業化生産的AI人才。現在一些高校從大學起就在做人工智能學院,例如由周志華老師擔任院長的南京大學AI人工智能學院,他們的培養模式是每周都有一天讓學生到南京當地的研發中心實踐,采用純粹面向應用的培養體系。目前AI領域飽和的就是隻會調包調參的工程師,未來趨勢也隻會愈加飽和。那麼什麼樣的人競争力會越來越強?主要有兩類:

第一類是專業化人才,他們能夠應對人工智能機器學習領域中重大的基礎研究問題,能夠解決企業小樣本資料和領域知識如何結合的問題,這類人才極為稀缺,因為這個問題它本身在學術界也極具挑戰。企業面臨的另外一個重點難題是規模問題,比如需要處理50萬視訊,如果是單張GPU卡,則需要720個小時,如何能夠通過軟硬體結合的方式,縮減每個視訊自動稽核的平均時間,那麼無論是在能源節省還是本身的可處理性上,都是一個巨大的飛躍。

第二類稀缺人才是與業務相結合的資深算法工程師,這一類則與經驗密切相關,比如說其具備将業務問題轉變成領域技術問題的能力,這是個翻譯模組化的過程。這項能力不僅要對技術有深厚的了解,也要對業務有很強的把控,同時又能夠通過架橋的能力将業務問題發現并定義出來,繼而模組化成技術問題加以解決。這一系列能力如果沒有五年以上一線摸爬滾打的經驗是完全不可能掌握的,而且過程中必然耗費了大量的成本,因為這些寶貴經驗的擷取,首先必然需要企業方面給予足夠的授權和授信,無疑是“拿錢堆出來的”實踐經驗,有點類似于飛行員的培養。

采訪最後,永叔特别指出了一個當下比較突出的問題,即企業Leader們對于算法能夠做什麼應用存在一些誤解,他們往往認為算法是個黑盒子,或是機器貓的袋子,什麼東西講不清楚都讓算法去算一下,這個問題現在是比較突出的,很多人就是,沒有去打開算法的這個黑盒子。事實上,目前我們對于資料比較充分的領域,算法的發揮空間的确比較大,但對于連标注資料都很模糊的地方,即使把算法丢進去能去解決的問題也比較少,算法使用在團隊中存在很大的偏差,是以算法如果用得好就會是一把利器,用不好就将耗費巨大的成本,還沒有收益。是以企業Leader需要提升自己的知識結構和體系修養,了解這個與業務緊密結合的專業工種,清楚算法可以應用到什麼地方、什麼環境。

繼續閱讀