天天看點

京東集團副總裁裴健:将學界最優的方法應用在業界最真實的場景中

對于裴健教授來說,過去的一年是極為充實的一年。他在去年 7 月成為新一屆 ACM SIGKDD 主席,任期兩年,在今年 1 月,他又出任了京東集團副總裁,負責大資料平台與智能供應鍊事業部。這一年間,他在學界和業界都完成了大量的工作:在剛剛結束的 KDD 2018 上,他及合作者有三篇論文入選;另一方面京東今年也在業務轉型和技術轉型的道路上快速前進,完成了諸多與大資料與智能供應鍊平台相關的部署。

京東集團副總裁裴健:将學界最優的方法應用在業界最真實的場景中
八月,我們來到了京東,與裴健教授聊了聊他近期的研究工作、在京東進行技術研發的思路和方法論,以及他作為一位「跨界達人」,對學界和業界進一步的交流與融合的看法。

學術工作:了解資料在決策過程中的作用

機器之心:KDD 2018 開幕在即,您有三篇論文被接收,能介紹下這三篇工作嗎?

裴健:一篇是針對可解釋性問題的(Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution)。

現在的深度學習有一個不盡人意的地方,就是它的結果是難以解釋、難以了解的。舉個例子,深度學習模型能識别醫學圖像中的癌細胞,但是這為什麼是癌細胞,模型不告訴你;AlphaGo 把人赢了,為什麼赢了,為什麼下這一步棋,不知道,下了就下了。

而可解釋性實際上有很多作用,第一是驗證機器的想法到底對不對?舉個例子,自動駕駛系統哪怕在學了很多的資料之後仍然有可能會出錯、出現事故。這時出錯的過程就很重要:如果這個模型可解釋,我們就可以做一些驗證,來評定這個模型的安全程度;如果模型不可解釋,我們就隻能夠做實驗,而做實驗是有危險的一件事情。

另外一個用處是給人類獲得新的知識提供一個途徑。人下棋下了這麼久,突然被機器超過了,到底是人的哪部分思維局限限制了人的能力?人類棋手下一步棋的時候,絕對不是把後面的所有的棋局都算出來然後進行選擇,而是用了歸納的能力。這是人獨特的、目前機器沒有的能力。我們能否從機器學出來的模型裡面歸納?為了解決這個問題,也有可解釋性的要求。

關于可解釋性的諸多研究,之前使用的都是比較偏實用的方法,我們這篇論文第一次給出了一個封閉解(closed form solution),是一個在數學上可以把公式寫出來的解。它的思路很簡潔:如果我們能把一個神經網絡局部地轉化成線性模型,那麼我們就可以通過線性模型來解釋整個神經網絡做了什麼事。

機器之心:文中給出了使用 ReLU 等線性激活函數的全連接配接神經網絡的封閉解,這個思路是否适用于其他非線性激活函數呢?是否适用于其他模型結構呢?

裴健:在 KDD 這篇工作裡我們針對 ReLU 這樣線性的激活函數,現在我們也在把範圍擴大到其他非線性的激活函數,這樣的情況下雖然數學上可能沒有封閉解,但是仍然可以得到一個近似解,并且近似品質可以控制。

同時,同樣的思路除了可以應用在全連接配接網絡之外,我們也在嘗試用它給卷積神經網絡(CNN)賦予可解釋性,但是更複雜的網絡,比如循環神經網絡(RNN)我們需要新的方法。

機器之心:在拿到封閉解之後,在實際應用中,解釋是以怎樣的形式給出的?

裴健:什麼叫可解釋性沒有一個唯一定義。我們現在正在寫另外一篇論文,探讨可解釋性有幾種可能的定義方式,以及每種定義方式下有哪些可能的方法。

具體來說,我們現在這篇文章的想法其實很簡單:如果有一個例子,通過神經網絡之後,給出了一個特定結果,那麼我們可以給出相應一個線性模型,它可以給出同樣的判斷。線性模型作為一個可以給出同樣結果的可以了解的模型,相當于一個解釋。

機器之心:第二篇是關于網絡嵌入(network embedding)的(文章名:Arbitrary-Order Proximity Preserved Network Embedding)。

裴健:以前我們做網絡嵌入通常都是從一階或者說指定的某個特殊階數的網絡切入,但是在實際應用當中,因為不清楚資料處理了之後有什麼樣的應用,是以在嵌入階段,我們并不清楚用幾階的距離更為合适。是以我們希望有一個通用的、适用于任意階數的網絡的嵌入,能夠使得各種資料進行轉換之後都能有效使用。

方法就是用一個 SVD 架構去解一個任意階數的距離(arbitrary-order proximity)。整個架構有很好的代數性質,是以圍繞任意階節點算近鄰關系的時候,不會受到特征選取和變化的較大影響。

機器之心:這篇工作在實際場景中會有哪些應用?相比于傳統方法有哪些提升?

裴健:以前,做網絡嵌入的時候是要根據特定任務做特定的嵌入,任務改了,相應的嵌入也要改。這樣的話,資料的預處理就會特别的麻煩。

我們的工作就想要改變這樣的現狀,如果保留了任意次元上的、任意階上的近似性,那麼能不能做完一次嵌入後,大部分任務可以直接用,不用再改了?而且針對每個任務做 embedding 還會存在過拟合的問題,可以通用的嵌入也可以避免這樣的問題。

機器之心:第三篇是關于 FM 方法的(Sketched Follow-The-Regularized-Leader for Online Factorization Machine)。

裴健:這篇的主題就是加速,加速 FM 的計算。現在的線上 FM 方法的問題是,性能很好、理論依據很強,但是計算複雜度太高。我們主要用了 Generalized Frequent Directions 的方法做近似然後做加速。

機器之心:您現在的研究方向主要集中在哪些領域?

裴健:我的研究方向主要還是在資料挖掘這個領域,核心點還是如何了解資料在整個決策過程當中的作用,比如模型的可解釋性(資料究竟如何被用起來的),以及模型的安全性或可攻擊性。

業界工作:高次元資料的時效性與安全性

機器之心:京東對待學術會議的态度是怎樣的?在 KDD 會議的諸多方向裡着重關心哪些方向?

裴健:京東一直就很重視這些頂級學術會議,追蹤國際先進的科研前線。去年我還沒有加入京東的時候,京東就已經拿了 KDD Cup 的獎,我當時作為頒獎嘉賓給他們頒了獎,後來又成為了同僚。京東在技術的推進、在交流方面方向一直就有很好的傳統。

在關注方向上,京東第一是非常重視落地的,是以我們會關注一些關鍵的能夠落地技術,例如說大規模模型的計算、推薦方面的應用、智能城市的應用。第二個京東很關注資料,關注如何用 AI 的方法、資料挖掘的方法來搭建資料平台,如何做好資料的共享以為後面的模型建立一個資料的基礎。

機器之心:您入職京東後的主要工作内容是什麼?

裴健:我主要是在做資料、供應鍊、區塊鍊這三方面的工作。其中在資料和供應鍊方面,有大量的場景會用到 AI 、機器學習和深度學習。舉個例子,供應鍊有一個很重要的任務就是自動補貨,自動補貨裡面又涉及到銷量預測,這裡面有很大量的工作是要用機器學習、深度學習方法來做的。

機器之心:能否介紹下京東大資料平台以及您在這部分的工作?

裴健:京東有很豐富的資料,我們現在大資料平台有大概 4 萬台伺服器,每天處理 100 萬個任務,所有資料倉庫、資料集市都在這個平台上運作。這樣一個平台要保證幾件事,第一是高效性,第二是資料的可靠性和安全性。第三是資料價值,要聯通以支撐各種的業務。

我們這半年在這資料平台上的工作主要集中在如何提升京東的大資料服務的品質,利用大資料服務提升使用者體驗和供應商體系的營運效率等。這些工作對成本降低和使用者體驗的提升都是有非常明顯的作用。

我們關注如何提高資料時效性、如何為京東開拓的新業務點提供業務場景支撐等。通過「知人、知貨、知場」,整體對客戶的服務品質都有提升。舉個例子,我們的客服能不能在客戶拿起電話的時候就知道他找客服的可能原因?我們的物流能不能在世界杯期間把啤酒放在離客戶最近的地方?能不能做到周轉庫存的效率最高,客戶拿到的産品新鮮度也最好?銷售團隊能不能不停貼近使用者需求,甚至通過需求預測回到上遊做到反向定制?

機器之心:京東在大資料方面接下來的計劃有哪些?

裴健:舉兩個例子。首先是大資料的時效性,傳統的資料倉庫,可能是每天或者每幾個小時更新一次,但是現在很多的新業務,例如内容營銷和「閃購」、「拼購」這些業務,要求分鐘級甚至是秒級的資料更新。這實際上是對整個大資料平台提出了很高的要求。

第二個是超高維資料的運算問題。我們正在做「千人千面」,用百萬級的次元來描述一個使用者、一個商品或者一個交易場景。那麼在此前提下,如何能夠迅速地感覺使用者對産品的需求,把這個資訊快速地傳達給設計商、制造商,進行上面提到的反向定制?

學界與業界:以人才為橋梁,更快速地傳達方法與需求

機器之心:京東中是如何組織相關人員進行技術研發的?

裴健:京東整體的研發加起來有 2 萬人規模,大部分團隊的關注重點是落地實作,用技術為業務進行賦能,解決具體業務問題。技術本身的價值需要跟業務結合在一起才能真正展現,這是我覺得整個科技界應該樹立的理念。是以京東的組織形式首先要看業務場景是什麼。這也是我們現在能夠吸引到很多的學術界的人加入到京東的一個很重要的原因。因為京東有很豐富的業務場景。

确定了業務場景之後,我們要确定相應的業務痛點,确定到底要解決一個什麼樣的問題。這實際上是一個雙方溝通的過程:業務人員要告訴技術人員,實際業務中其實有這樣一些現象,技術人員要告訴業務人員,其實我可以幫你解決一些什麼樣的問題。

然後我們開始定義産品,然後進行相應的研發、測試這些整個過程。

至于團隊的劃分,我們有時候是以業務的垂直線來分團隊,例如說我們會有專門的團隊來做供應鍊的銷量預測,有專門的團隊為品牌商做資料分析。也有時候按技術層面分團隊,例如大資料平台有專門的團隊專門做流式資料,根據不同的業務性質會有不同的劃分。

機器之心:京東如何選擇研發的方向?

裴健:我們的研究會緊密地跟随着業務需求和業務發展:一方面是看現在業務需要什麼,如何解決業務的核心需要;另外一方面是往前看一步,未來的業務方向在什麼地方,未來業務方向需要什麼樣的技術。兩方面我們都會進行研究。

至于具體采用哪一種技術,則是跟随資料特點和算法的進展進行的。例如在用什麼方法進行銷量預測這一點上,一開始傳統的供應鍊行業,是用很少的幾個名額,用統計模型去預測。但是現在我們的名額非常多,傳統的模型就做不好這個任務了,深度學習模型就進來了。

機器之心:京東現在的技術人才儲備與需求狀況如何?急需哪些類型的人才?

裴健:整個京東除了技術在轉型,業務也在快速發展以及轉型。是以從人才角度出發,現在我們絕對沒有人才飽和這個問題,我們現在仍然是求賢若渴,希望吸納更多的高素質的人才進來。

同時我們的技術轉型與技術提升也包括了現有員工的技術提升,很多原來做傳統的技術工作的員工,通過學習和在項目當中的鍛煉,能夠把機器學習等新的技術應用到工作中去。

京東對于人才的需求也是全方面的,從資料挖掘、資料科學方面的人才,到雲、大資料、系統方面的人才,都是我們所需要的。

對于我的團隊來說,我最希望加入我們的人才有「技術直覺」。我們不希望一個人來了隻會調模型,我們希望他還知道為什麼這樣調模型,到底在調的是什麼,有看透技術本質的直覺。第二個是對業務的興趣,如果一個人對業務完全沒有興趣,很難去業務的環境下發揮很大作用。第三我們希望團隊有打破架構去創新的欲望,希望團隊手上有技術的工具之後,有欲望做創新。

機器之心:學界與業界之間交流與融合如今處于什麼狀态?還有哪些可以提高的部分?如何進行提高?

裴健:這二者的融合會越來越好,學術界更多提供技術和算法,工業界則會提供很多應用場景的背景以及資料。

舉個例子,京東最近也在做智能優化大賽,我們提供了兩個在業界非常寶貴的資料集,分别是倉儲資料集和供應鍊資料集。這些資料集對于學界有非常大的作用。而我在學校一直做的事情也是偏向于應用驅動的。我們做的問題一定是來自一個應用場景,一個實際需求。

但是從人才的角度講,人才培養和人才需求之間還存在一個非常巨大的鴻溝。大學在課程和培養方法上都遠遠落後于業界,業界的需求傳遞到大學需要大概 3 到 5 年的時間,「反向定制」的效率很低。另一方面,業界對學術界的這種信任和靈活性都比較弱。業界往往心很急,覺得學學術界東西太虛了。是以如何使兩方能夠更緊密的結合,是非常關鍵的。

一方面,以後我們能不能有一些博士後不在大學裡培養,能不能在公司裡創造一些被大的具體應用場景包裹的小的研究環境。另一方面,公司裡的人能不能更多回到學校去,去直接地建立溝通的管道,把業界最直接的需求的聲音傳遞到研究者。這都是值得思考的做法。

京東集團副總裁裴健:将學界最優的方法應用在業界最真實的場景中

繼續閱讀