天天看點

資料驅動人工智能的實踐 | 硬創公開課

随着時間的推移,人工智能(ai)技術已經形成學術與産業關聯發展、向前推進的态勢。不管是說風口還是機遇,ai對科技産業創新的力量不言而喻,而在該領域積累了相關技術實力的研究者、企業創新者也希望趕上時代的列車。本次雷鋒網ai金融專場硬創公開課第一期,我們邀請到百度金融首席資料科學家丁磊博士,來分享他關于人工智能技術在商業領域的深度思考。

丁磊博士是百度金融首席資料科學家,曾任職彙百川征信cto,及paypal全球消費者資料科學部負責人。丁博士曾在斯坦福大學學習管理,先後在哥倫比亞大學和ibm

watson研究院工作,具有在大資料、金融等領域十多年的從業經驗,在人工智能和大規模機器學習等領域有豐富的成果。

資料驅動人工智能的實踐 | 硬創公開課

右一為丁磊博士

以下是雷鋒網對演講進行了不改變原意的編輯:

晚上好,感謝大家在周五的晚上和我們一起探讨人工智能這個話題。我在國内外從事ai有十來年,涉及了ai在多媒體了解、社交、廣告、營銷、金融等領域的産品與研發工作。在這兒,我想跟大家分享一些自己的從業思考。

說到資料,毋庸置疑,是咱們這個時代很重要的資産。大家常說大資料有“3v”:volume,資料量,從tb到pb甚至更大的資料。variety,多樣性,包括結構化,半結構化,非結構化的資料。velocity,速度方面,包括批處理,準實時,實時的資料。

如果說資料是原油,那麼我想,ai就是從原油中提煉各種高價值産品的加工廠。從資料中發現知識、洞察、和規律,這本身并不是一個新的概念,從開普勒的時代就有,那就是開普勒從幾百頁的天體位置資料,在當時算是大資料中,提煉、總結出了天體運動的三定律,現在還在被使用,也就是我們熟知的開普勒三定律。現在,ai幫助我們實作了的是,借助大規模雲計算的方法,從海量資料中自動學習知識和規律。做好ai并不容易,接下裡我會跟大家詳細探讨一些經驗。

作為資料驅動的ai架構,可以給我們帶來哪些作用?總的來說:

首先,它可以帶來個性化的體驗。例如當我們進入到一些網站,可能會發現許多個性化的針對每個人的體驗,這些體驗讓網站不再是千人一面,通過資料驅動的ai架構可以為每一位訪客做出優化。

其次,作為一個資料驅動的ai架構,可以帶來細粒度的行業政策,企業可以采用精細化的營運方法。相對于個性化的體驗來說,細粒度的行業政策更側重于企業端。例如,過去做營銷,一個産品的适用人群可能是一定範圍内的男性或者女性,這是一個比較粗的描述。用資料驅動的ai架構以後,我們可以得到一個比較細的描述,比如我們可以了解基于年齡、興趣愛好、行為等因素的目标客戶群,進而得到細粒度的營銷政策。

第三,作為一個資料驅動的ai架構,可以帶來知識和洞察。我們去學校或者在經驗中都可以學習到知識。那麼,資料驅動的ai架構帶給我們的核心價值是持續地營運化地從大資料中挖掘知識、學習知識的能力。這個知識未必是寫在教科書上的,而從資料中可以實時地、最大體量地、同時也是有效地獲得知識,用于生産和業務實踐中。類似地,從資料中獲得的洞察也可以帶來同樣的價值。

說完這三點,接下來談談搭建paypal ai平台的經驗。從2012年到2015年底,我帶領團隊建構了ai平台并服務于全球數億的使用者和百萬級的商家,優化了他們的購物體驗。通過ai平台,作為商家可以營運化地預測使用者的行為進而精準的和他們對話。

具體而言,ai平台包括:動機引擎、推薦引擎、以及優化客戶生命周期的nba(next best action)引擎。這幾個引擎部署在基于hadoop和spark的大資料平台之上,跟海量的底層資料無縫銜接。其中,

動機引擎通過ai技術,預測使用者在某一個時間點的行為,包括點選廣告、兌現優惠卷、購買商品等。 推薦引擎連接配接使用者和他可能感興趣的商家或商品,做出恰當的推薦。 nba引擎則通過ai技術優化在每一個時間點,商家采用什麼樣的政策,能夠最有效的與使用者互動。

那麼這個ai平台如何發展起來的呢?首先,需要了解業務的需求和kpi,整合相關資料集,然後建立基于回測的概念驗證,營運化生産和疊代整個體系。經曆了幾年的曆程,團隊逐漸建構了比較完善的ai平台,為各方帶來了顯著而持續的收益,也提升的使用者的體驗。從效果上來說,ai平台使大部分營銷活動的有效增益提升了2倍以上,有些達到了數倍之多。

所謂dikw金字塔包括四層,即“d-資料”,“i-資訊”,“k-知識”,“w-智慧”——每一層代表人類對客觀世界認識的一個層面。最底層的是資料、上面依次是資訊、知識和智慧,構成了金字塔形的結構。

從資料到資訊是傳統it比較專注的領域,通過資料庫系統和etl引擎,主要把相對粗糙、未經整理的資料轉化為資訊。所謂資訊即結構化的産物,可以了解為資料庫中的表等實體的總和。

而資訊到知識是ai所做的事情,這個轉化過程與資料庫運算不同,因為它不是機械的資料處理和整合,而是從資訊升華到知識的過程。

其核心之一是去平均化,這是人工智能幫我們做的很重要的一件事。例如,在營銷領域,對于一個公司來說,平均客戶價值是一百元,去平均化的過程告訴我們,不同客戶對應的價值是不同的。這個可以通過ai,從過去的客戶行為資料等屬性中學習出來,建立自學習模型,預測每個客戶的價值是多少。這些都非常有價值的資訊。客戶的實際價值,可能和與平均值差很遠。

不光客戶的價值,客戶是否會購買一件商品,喜歡什麼樣的商品,以及如何促成一次購買,等等這些問題,都可以通過ai技術來幫助回答。

去平均化的應用領域不僅局限于營銷領域,在其他商業相關或者醫學相關的其他很多領域,都有很多去平均化的應用。好比醫療領域,基于醫療病例預測得壞血病的機率和再入院的機率,能夠幫助醫院挽救病人和降低醫療成本,這些應用已經在美國的一些大醫院裡開始使用。

換一個視角,我們可以看看人類感官的演化曆程,如何定義了ai系統模拟人腦的複雜性。

衆所周知,計算機視覺,包括圖像和視訊識别等,其難度在感覺類别的ai裡是比較高的。我想其中一個原因是,人類視覺系統源自原始動物的視覺系統,這個演化時間最長,超過了2億年。

相比而言,交流用的有聲語言演化了有10萬年左右,而文字隻演化了5千年左右。這樣的演化曆史,也符合ai處理語音和文本的難易程度。文本了解已經相當普及,而語音識别逐漸開始進入千家萬戶。我想,人工智能的難易程度是符合人類感官演化的。

如此類比,現代的專業知識,好比金融和醫療這些領域,它們的演化的時間不超過幾百年。盡管有種種挑戰,這些知識的演化曆史印證着ai在這些行業的應用,可以取得比較顯著的效果。

這裡引用著名的科技思想家kevin

kelly的一句話,說“ai是認知化”。如果說電力化帶來了人工動力,那麼認知化帶來了人工智能。結合前面讨論的演化觀點,我認為:感覺方面,包括ai的視覺、聽覺等,ai可以接近人腦。在支援專業決策的方面,在海量資料的支援下,甚至可以超越人腦。

舉兩個例子,分别是圖像識别和金融風險控制來說明這點。圖像識别方面,在權威的imagenet圖像識别競賽的評測裡,2010到2015這五年内,通過深度學習一系列的算法,計算機對1000多類物體的識别——就是讓計算機給每張圖檔标注1000類中的一個類别,錯誤率從30%下降到5%,識别效果有了非常大的提升。

金融風控領域中通過ai輸出模型的ks值,通常用來衡量風險識别有效性的一個名額,也可做到40%-50%甚至更高,有效的控制住風險,效果可以超越傳統的人工方法。

資料,本身反映了事物的原理和規律。當你找到它的規律後,它可以去預測未知或未來的事情。是以,“資料+ai”的核心能力為我們建構了一個發展中的産業生态。這個生态分為兩層:

底層是應用技術,包括機器學習、圖像語音處理、自然語言及一系列相關的硬體技術。

而上面一層是和場景相結合的應用,包括兩大類:第一大類面向企業,包括行業應用,例如金融、醫療、教育等;另外在每個行業都有交叉的次元,也就是職能應用,例如營銷、bi、crm、安全等相關的職能。職能應用和行業應用構成二維的矩陣,ai在其中有很多的應用場景。第二大類是消費類應用,例如智能家居,輔助駕駛,智能機器人等,在其中ai也開始嶄露頭角。

說了這麼多行業、職能和應用領域,其實不是所有領域都适合大範圍使用ai。滿足大規模商業應用的ai,應具備兩個必要條件:

其一是資料的品質和數量必須達到一定的要求,尤其是整個資料流程的打通和定期的資料更新。這決定了ai發展的基礎是否牢固;

其二,所在領域有沒有對問題的相對清晰的定義。如果領域本身沒有明晰的問題定義,則很難通過ai來解決問題。總體來說,金融行業已經比較接近這兩點要求;職能來說,營銷、bi、crm和安全等在一些行業比較接近人工智能大規模使用的先決條件。

過去一段時間,我接觸過很多公司,也發現其中存在的一些存在共性的挑戰和思路:

第一,資料方面,有價值的資料已經在你的資料庫裡,很多時候是因為不懂得去挖掘資料價值,容易錯失了利用ai的機會。舉個例子,通過ai預測電商網站的訪客價值。此前我任職的一個創業公司,通過ai算法優化了全球出行網站每月上億uv的使用者體驗。

具體來說,通過一些實時抓取的行為資料,預測訪客的購買意願和購買價值。對不太可能在本站上購買的訪客,這個其實占的比例非常高,有時候達到97%,那麼這個時候,我們可以推薦給他們其他的可能感興趣的出行産品。這個産品的結果是大幅提升了出行網站的收益,并優化了使用者的體驗。總結一下,如果不能挖掘這些現有資料的價值,就沒法産生這樣的創新模式。

第二,人才方面,我覺得業界最缺的是ai産品經理。跟國内不少公司交流過,ai問題的複雜性之一在于結果的不确定性,而具備ai背景的産品經理少之又少,不能夠很好地判斷價值與方向,進而會導緻相關産品或項目的擱置。當然這裡面也有人才培養的問題,例如可以嘗試鼓勵優秀的ai工程師和科學家去主導相關産品的開發,在業務的指引下,充分發揮專業人才的積極性,探索可行的方向。

第三,跨領域和團隊的交融與整合,打通資料的閉環,産品、工程、ai的緊密結合。這個需要比較長時間的磨合。在我們之前建構ai平台的經曆中,涉及大量跨團隊溝通、配合、互相支援的工作。ai得以有效實作,工程能力的建設尤為重要。ai不光是算法問題,由于大資料的體量、種類和實時性要求,如果沒有強大的資料處理基礎設施,很難在大資料上進行持續和大規模的ai應用。

舉個例子,基于實際的需求,我們常用一種比較受到推崇的“lambda”架構,這個架構包括以下組成部分:

批處理層,支援批處理讀寫和分析處理;

服務層,支援批處理寫入和實時讀取;

速度層,支援實時讀寫,把時效性非常高的資料在很短的時間内反應給使用者。

這些層整合起來構成了一個可以支撐大規模ai的基礎設施。

第四,ai落地中信任的問題。我覺得在解決行業實際問題裡,很多瓶頸來自于信任的缺乏。信任本身是個很大的話題,在技術的層面上,這包括了對資料和對算法的信任。是以,一定範圍内的資料共享可以增加信任,并可以帶來全新的知識和洞察。一個相關的技術——區塊鍊技術大家可能有聽說過,簡單來說是一個分布式的可信任的資料基礎設施。基于這項技術的一個例子,最近荷蘭16家公司組成的物流區塊鍊聯盟,通過這種形式的物流資料共享和打通,能夠增加他們彼此間的信任,從中長期來看更有利于ai的落地。

綜上所述,如果解決了這些問題,我相信企業會有比較大的空間利用ai來更新,不僅是行業中的大企業,中小企業也有很多的機會。運用ai領域的最佳實踐,快速概念驗證,風險可控的前提下落地生産,我相信将帶來廣闊的空間。

雷鋒網(公衆号:雷鋒網)注:本次活動為丁博士個人經驗分享,觀點不代表百度。

本文作者:溫曉桦

繼續閱讀