資料驅動人工智能的實踐 | 硬創公開課

随着時間的推移，人工智能（ai）技術已經形成學術與産業關聯發展、向前推進的态勢。不管是說風口還是機遇，ai對科技産業創新的力量不言而喻，而在該領域積累了相關技術實力的研究者、企業創新者也希望趕上時代的列車。本次雷鋒網ai金融專場硬創公開課第一期，我們邀請到百度金融首席資料科學家丁磊博士，來分享他關于人工智能技術在商業領域的深度思考。

丁磊博士是百度金融首席資料科學家，曾任職彙百川征信cto，及paypal全球消費者資料科學部負責人。丁博士曾在斯坦福大學學習管理，先後在哥倫比亞大學和ibm

watson研究院工作，具有在大資料、金融等領域十多年的從業經驗，在人工智能和大規模機器學習等領域有豐富的成果。

右一為丁磊博士

以下是雷鋒網對演講進行了不改變原意的編輯：

晚上好，感謝大家在周五的晚上和我們一起探讨人工智能這個話題。我在國内外從事ai有十來年，涉及了ai在多媒體了解、社交、廣告、營銷、金融等領域的産品與研發工作。在這兒，我想跟大家分享一些自己的從業思考。

說到資料，毋庸置疑，是咱們這個時代很重要的資産。大家常說大資料有“3v”：volume，資料量，從tb到pb甚至更大的資料。variety，多樣性，包括結構化，半結構化，非結構化的資料。velocity，速度方面，包括批處理，準實時，實時的資料。

如果說資料是原油，那麼我想，ai就是從原油中提煉各種高價值産品的加工廠。從資料中發現知識、洞察、和規律，這本身并不是一個新的概念，從開普勒的時代就有，那就是開普勒從幾百頁的天體位置資料，在當時算是大資料中，提煉、總結出了天體運動的三定律，現在還在被使用，也就是我們熟知的開普勒三定律。現在，ai幫助我們實作了的是，借助大規模雲計算的方法，從海量資料中自動學習知識和規律。做好ai并不容易，接下裡我會跟大家詳細探讨一些經驗。

作為資料驅動的ai架構，可以給我們帶來哪些作用？總的來說：

首先，它可以帶來個性化的體驗。例如當我們進入到一些網站，可能會發現許多個性化的針對每個人的體驗，這些體驗讓網站不再是千人一面，通過資料驅動的ai架構可以為每一位訪客做出優化。

其次，作為一個資料驅動的ai架構，可以帶來細粒度的行業政策，企業可以采用精細化的營運方法。相對于個性化的體驗來說，細粒度的行業政策更側重于企業端。例如，過去做營銷，一個産品的适用人群可能是一定範圍内的男性或者女性，這是一個比較粗的描述。用資料驅動的ai架構以後，我們可以得到一個比較細的描述，比如我們可以了解基于年齡、興趣愛好、行為等因素的目标客戶群，進而得到細粒度的營銷政策。

第三，作為一個資料驅動的ai架構，可以帶來知識和洞察。我們去學校或者在經驗中都可以學習到知識。那麼，資料驅動的ai架構帶給我們的核心價值是持續地營運化地從大資料中挖掘知識、學習知識的能力。這個知識未必是寫在教科書上的，而從資料中可以實時地、最大體量地、同時也是有效地獲得知識，用于生産和業務實踐中。類似地，從資料中獲得的洞察也可以帶來同樣的價值。

說完這三點，接下來談談搭建paypal ai平台的經驗。從2012年到2015年底，我帶領團隊建構了ai平台并服務于全球數億的使用者和百萬級的商家，優化了他們的購物體驗。通過ai平台，作為商家可以營運化地預測使用者的行為進而精準的和他們對話。

具體而言，ai平台包括：動機引擎、推薦引擎、以及優化客戶生命周期的nba（next best action）引擎。這幾個引擎部署在基于hadoop和spark的大資料平台之上，跟海量的底層資料無縫銜接。其中，

動機引擎通過ai技術，預測使用者在某一個時間點的行為，包括點選廣告、兌現優惠卷、購買商品等。推薦引擎連接配接使用者和他可能感興趣的商家或商品，做出恰當的推薦。 nba引擎則通過ai技術優化在每一個時間點，商家采用什麼樣的政策，能夠最有效的與使用者互動。

那麼這個ai平台如何發展起來的呢？首先，需要了解業務的需求和kpi，整合相關資料集，然後建立基于回測的概念驗證，營運化生産和疊代整個體系。經曆了幾年的曆程，團隊逐漸建構了比較完善的ai平台，為各方帶來了顯著而持續的收益，也提升的使用者的體驗。從效果上來說，ai平台使大部分營銷活動的有效增益提升了2倍以上，有些達到了數倍之多。

所謂dikw金字塔包括四層，即“d-資料”，“i-資訊”，“k-知識”，“w-智慧”——每一層代表人類對客觀世界認識的一個層面。最底層的是資料、上面依次是資訊、知識和智慧，構成了金字塔形的結構。

從資料到資訊是傳統it比較專注的領域，通過資料庫系統和etl引擎，主要把相對粗糙、未經整理的資料轉化為資訊。所謂資訊即結構化的産物，可以了解為資料庫中的表等實體的總和。

而資訊到知識是ai所做的事情，這個轉化過程與資料庫運算不同，因為它不是機械的資料處理和整合，而是從資訊升華到知識的過程。

其核心之一是去平均化，這是人工智能幫我們做的很重要的一件事。例如，在營銷領域，對于一個公司來說，平均客戶價值是一百元，去平均化的過程告訴我們，不同客戶對應的價值是不同的。這個可以通過ai，從過去的客戶行為資料等屬性中學習出來，建立自學習模型，預測每個客戶的價值是多少。這些都非常有價值的資訊。客戶的實際價值，可能和與平均值差很遠。

不光客戶的價值，客戶是否會購買一件商品，喜歡什麼樣的商品，以及如何促成一次購買，等等這些問題，都可以通過ai技術來幫助回答。

去平均化的應用領域不僅局限于營銷領域，在其他商業相關或者醫學相關的其他很多領域，都有很多去平均化的應用。好比醫療領域，基于醫療病例預測得壞血病的機率和再入院的機率，能夠幫助醫院挽救病人和降低醫療成本，這些應用已經在美國的一些大醫院裡開始使用。

換一個視角，我們可以看看人類感官的演化曆程，如何定義了ai系統模拟人腦的複雜性。

衆所周知，計算機視覺，包括圖像和視訊識别等，其難度在感覺類别的ai裡是比較高的。我想其中一個原因是，人類視覺系統源自原始動物的視覺系統，這個演化時間最長，超過了2億年。

相比而言，交流用的有聲語言演化了有10萬年左右，而文字隻演化了5千年左右。這樣的演化曆史，也符合ai處理語音和文本的難易程度。文本了解已經相當普及，而語音識别逐漸開始進入千家萬戶。我想，人工智能的難易程度是符合人類感官演化的。

如此類比，現代的專業知識，好比金融和醫療這些領域，它們的演化的時間不超過幾百年。盡管有種種挑戰，這些知識的演化曆史印證着ai在這些行業的應用，可以取得比較顯著的效果。

這裡引用著名的科技思想家kevin

kelly的一句話，說“ai是認知化”。如果說電力化帶來了人工動力，那麼認知化帶來了人工智能。結合前面讨論的演化觀點，我認為：感覺方面，包括ai的視覺、聽覺等，ai可以接近人腦。在支援專業決策的方面，在海量資料的支援下，甚至可以超越人腦。

舉兩個例子，分别是圖像識别和金融風險控制來說明這點。圖像識别方面，在權威的imagenet圖像識别競賽的評測裡，2010到2015這五年内，通過深度學習一系列的算法，計算機對1000多類物體的識别——就是讓計算機給每張圖檔标注1000類中的一個類别，錯誤率從30%下降到5%，識别效果有了非常大的提升。

金融風控領域中通過ai輸出模型的ks值，通常用來衡量風險識别有效性的一個名額，也可做到40%-50%甚至更高，有效的控制住風險，效果可以超越傳統的人工方法。

資料，本身反映了事物的原理和規律。當你找到它的規律後，它可以去預測未知或未來的事情。是以，“資料+ai”的核心能力為我們建構了一個發展中的産業生态。這個生态分為兩層：

底層是應用技術，包括機器學習、圖像語音處理、自然語言及一系列相關的硬體技術。

而上面一層是和場景相結合的應用，包括兩大類：第一大類面向企業，包括行業應用，例如金融、醫療、教育等；另外在每個行業都有交叉的次元，也就是職能應用，例如營銷、bi、crm、安全等相關的職能。職能應用和行業應用構成二維的矩陣，ai在其中有很多的應用場景。第二大類是消費類應用，例如智能家居，輔助駕駛，智能機器人等，在其中ai也開始嶄露頭角。

說了這麼多行業、職能和應用領域，其實不是所有領域都适合大範圍使用ai。滿足大規模商業應用的ai，應具備兩個必要條件：

其一是資料的品質和數量必須達到一定的要求，尤其是整個資料流程的打通和定期的資料更新。這決定了ai發展的基礎是否牢固；

其二，所在領域有沒有對問題的相對清晰的定義。如果領域本身沒有明晰的問題定義，則很難通過ai來解決問題。總體來說，金融行業已經比較接近這兩點要求；職能來說，營銷、bi、crm和安全等在一些行業比較接近人工智能大規模使用的先決條件。

過去一段時間，我接觸過很多公司，也發現其中存在的一些存在共性的挑戰和思路：

第一，資料方面，有價值的資料已經在你的資料庫裡，很多時候是因為不懂得去挖掘資料價值，容易錯失了利用ai的機會。舉個例子，通過ai預測電商網站的訪客價值。此前我任職的一個創業公司，通過ai算法優化了全球出行網站每月上億uv的使用者體驗。

具體來說，通過一些實時抓取的行為資料，預測訪客的購買意願和購買價值。對不太可能在本站上購買的訪客，這個其實占的比例非常高，有時候達到97%，那麼這個時候，我們可以推薦給他們其他的可能感興趣的出行産品。這個産品的結果是大幅提升了出行網站的收益，并優化了使用者的體驗。總結一下，如果不能挖掘這些現有資料的價值，就沒法産生這樣的創新模式。

第二，人才方面，我覺得業界最缺的是ai産品經理。跟國内不少公司交流過，ai問題的複雜性之一在于結果的不确定性，而具備ai背景的産品經理少之又少，不能夠很好地判斷價值與方向，進而會導緻相關産品或項目的擱置。當然這裡面也有人才培養的問題，例如可以嘗試鼓勵優秀的ai工程師和科學家去主導相關産品的開發，在業務的指引下，充分發揮專業人才的積極性，探索可行的方向。

第三，跨領域和團隊的交融與整合，打通資料的閉環，産品、工程、ai的緊密結合。這個需要比較長時間的磨合。在我們之前建構ai平台的經曆中，涉及大量跨團隊溝通、配合、互相支援的工作。ai得以有效實作，工程能力的建設尤為重要。ai不光是算法問題，由于大資料的體量、種類和實時性要求，如果沒有強大的資料處理基礎設施，很難在大資料上進行持續和大規模的ai應用。

舉個例子，基于實際的需求，我們常用一種比較受到推崇的“lambda”架構，這個架構包括以下組成部分：

批處理層，支援批處理讀寫和分析處理；

服務層，支援批處理寫入和實時讀取；

速度層，支援實時讀寫，把時效性非常高的資料在很短的時間内反應給使用者。

這些層整合起來構成了一個可以支撐大規模ai的基礎設施。

第四，ai落地中信任的問題。我覺得在解決行業實際問題裡，很多瓶頸來自于信任的缺乏。信任本身是個很大的話題，在技術的層面上，這包括了對資料和對算法的信任。是以，一定範圍内的資料共享可以增加信任，并可以帶來全新的知識和洞察。一個相關的技術——區塊鍊技術大家可能有聽說過，簡單來說是一個分布式的可信任的資料基礎設施。基于這項技術的一個例子，最近荷蘭16家公司組成的物流區塊鍊聯盟，通過這種形式的物流資料共享和打通，能夠增加他們彼此間的信任，從中長期來看更有利于ai的落地。

綜上所述，如果解決了這些問題，我相信企業會有比較大的空間利用ai來更新，不僅是行業中的大企業，中小企業也有很多的機會。運用ai領域的最佳實踐，快速概念驗證，風險可控的前提下落地生産，我相信将帶來廣闊的空間。

雷鋒網(公衆号：雷鋒網)注：本次活動為丁博士個人經驗分享，觀點不代表百度。

本文作者：溫曉桦

資料驅動人工智能的實踐 | 硬創公開課

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希