允中 發自 凹非寺
量子位 報道 | 公衆号 QbitAI
開源SQLFlow,反哺業界,同時小小秀出AI肌肉。
這就是螞蟻金服近日開源首個将SQL應用于AI引擎項目SQLFlow後,業界給出的反應。
SQLFlow,把艱深的AI與簡單的SQL結合起來,大大簡化了資料工程師使用AI技術的門檻。而研發出SQLFlow的,正是螞蟻金服計算存儲首席架構師何昌華帶領下的AI Infra團隊。
何昌華斯坦福博士畢業,先在Google總部工作7年,赢得過公司最高技術獎項,其後又在獨角獸Airbnb工作2年,負責背景系統的應用架構。
2017年5月,他正式加盟螞蟻金服,擔任計算存儲首席架構師,并在2018年入選了第14批國家“千人計劃”專家。
在螞蟻金服,何昌華的工作是開發新一代計算引擎,搭建金融型資料智能平台。而SQLFlow,就是計算引擎主線上的結晶之一。
不過對何昌華來說,世界正在巨變,他還要帶隊探索一些沒人做成的事情。比如全實時的大資料智能系統。
未來技術基石
大資料的概念,最早來自于搜尋引擎行業,因為搜尋引擎面對的是人類在網際網路上留下的爆炸性增長的龐大資料。
2010年底,谷歌宣布新一代搜尋引擎“咖啡因”正式上線,這項技術的革命性在于,任何時刻,世界上的任何網頁發生了變化,都可以實時地添加到索引中,使用者也可以實時地搜尋到,解決了傳統搜尋引擎的延時問題。
何昌華當時正是咖啡因開發團隊的核心技術負責人之一。他解釋,“咖啡因所實作的最核心的功能,就是實時。”
而現在何昌華在螞蟻金服工作的目标,同樣是搭建一個“完全實時”的大資料處理系統,或稱之為大資料智能平台。由于線下生活場景的多樣性和複雜性,這是個比建構實時搜尋更有挑戰性的任務。
他認為,這将成為未來技術的基石。
對于計算機來說,實時就是在送出請求到傳回響應之間的延遲盡量小,對于大資料處理系統來說,這還意味着從資料生産到消費的延遲盡可能低,所有這些都意味着計算速度和能力的提升。
此前常用的大資料計算模型MapReduce,對資料的處理是“分片式”的,資料的片與片之間有邊界的概念,這種批處理的模式不可避免地會帶來延時問題。
以搜尋的場景為例,假如以天為時間機關對資料進行批處理,那就意味着今天更新的網頁,使用者明天才能搜尋到,調高處理的頻率可以部分解決問題,一天兩次、一天四次、兩小時一次……雖然能逐漸接近“準實時”,但成本也會急劇上升。
要實作真正的實時,就必須打破這種批處理的邊界,讓資料處理的過程像水流一樣,随來随算,随時回報。這也催生了後來流式計算引擎的蓬勃發展。
而在何昌華看來,除了快,“實時系統”還有兩層重要含義。
- 第一是OLTP(聯機事務處理)和OLAP(聯機分析處理)的融合。在以往的觀念裡,OLTP對實時性的要求高,OLAP對時效性的要求不那麼高。
舉例而言,用支付寶進行一筆交易,需要即時查詢和增删記錄,就是由OLTP來處理的。而對使用者行為特征的資料分析,則由OLAP來處理。
但現在随着業務場景需求的不斷變化,OLAP的時效性要求也越來越高。
例如網際網路金融中的風控場景,就需要在完成一筆交易的極短時間中,通過分析使用者的特征資料判斷風險,這要求OLAP也要能實時回報,且回報結果馬上就能夠線上通路。
- 第二是智能和資料系統的融合。
人工智能和機器學習是大資料應用最熱門的領域,而現在絕大多數公司的做法,是将數倉和機器學習平台分開,從數倉取一批資料,放到機器學習平台上去訓練模型。
随着業務場景的複雜化和多樣化,這種模式逐漸顯露問題,因為模型能否實時更新,能否能用更實時的資料來訓練模型,直接影響了應對複雜場景的能力。

“資料實時流入、實時訓練模型,模型實時上線決策并回報資料——這一條線如果能完全打通,對于業務将産生不可估量的價值”, 何昌華說。
資料、計算、智能,所有這一切構成了何昌華設想中的“高效率的大資料底盤”,也就是一個融合的實時資料智能平台,或者叫“Big Data Base”,就像曾經資料庫成為無數場景的資料底盤一樣。
如今,不僅是螞蟻金服或者阿裡巴巴集團,在各行各業中,資料驅動的業務都越來越多。但大資料開發的門檻很高,如果每一項業務都從資料開發的底層做起,将會非常耗時耗力。
如何才能讓做業務的人有更多精力專注于業務?何昌華認為這就是“Big Data Base”的使命,同樣也是“基石”的含義:
我們希望讓這件事變得簡單——各行各業的從業人員、各條業務線的同學,在堅實的平台基礎上,不需要知道下層的細節,就可以很友善地開發上層應用。
離真正的智能有多遠?
降低資料和智能的門檻,這是何昌華對于新引擎和資料智能平台的期望。
目前,他帶領團隊開發的金融型多模融合計算引擎,已經實作了流計算與圖計算、流計算與機器學習的融合打通,距離他設想中的“大融合”越來越近了。
何昌華透露團隊目标,就是讓業務變得“極簡”:
未來兩到三年,我們希望新引擎能夠承擔實時線上的融合計算任務。基于這個引擎,結合其他開源引擎,我們就能夠建構出一整套資料智能系統。在這個資料智能系統上,業務可以非常輕松地完成從功能開發到産品上線的流程,後續的吸引流量、分析決策等也都可以借助這個平台來完成。
他甚至勾畫了一幅很科幻的未來場景:你寫一個功能交給引擎,引擎會決定調用多少資源去計算,你無需關心具體的計算過程,結果将會在最短的時間内回報給你。
當你構想出一種新型業務,資料智能平台會判斷需要哪些資料,采用哪種模型,如何上線,如何營運流量。
這些流程,都可以智能化地自動完成。
這是個更長遠的目标。我們開發出資料處理的能力,未來,任何人都可以使用這種能力,真正實作“資料民主化”。
這樣一個融合多種能力的實時資料智能平台,目前在世界上還沒有哪家公司能完全研發出來。
何昌華也謹慎而滿懷信心地展望着未來:“我們也是在探索,如果完全實作了探索目标,我們就将真正站到全世界領先的位置。”
無人之境
世界瞬息萬變,資料作為實體世界的鏡像,理論上是無窮無盡的,問題隻在于人類有沒有辦法去記錄和采集它們。
網際網路和移動網際網路的普及,讓人類的行為資料采內建本大大降低。IoT傳感器裝置的普及,讓工業生産和社會生活中的資料也能夠大量地沉澱下來。是以在過去的二十年中,資料總量出現了爆炸性的增長。
在整個世界發生數字化巨變的同時,我們的生活也在悄然改變。
基于資料應用的發展,我們享受到了一二十年之前無法想象的便捷——電商、O2O、移動支付、智能家居……
但在何昌華看來,數字化還處在非常初級的、在把線下的資料搬到線上的階段。真正需要思考的問題,是未來當高度資料化的社會到來時,我們擁有什麼樣的能力去處理和應用海量的資料。
這關系到我們是否能夠基于資料做到更多的事,催生出更高的智能,進而推動人類社會向着下一階段發展。
這就是他回國加入螞蟻金服所要尋找的答案。
“
之是以回來,是因為覺得在這裡做的事,往大一點說,是面向人類社會發展下一階段的探索。
”
在這場全新的探索中,和海量的資料打交道是必修課,是以,他反複強調着計算能力的重要性:大資料、人工智能、深度學習……無不需要強大的計算能力,否則,向前的探索寸步難行。
人工智能的發展趨勢,也是用更大更高更海量的計算,來模拟人的能力。
“真正的人工智能=資料+100倍的計算”,谷歌最新的人工智能模型水準,換算出來相當于數百塊GPU持續計算一整年。
何昌華和團隊一起傾力開發的新一代計算引擎和資料智能平台,實際上是高效計算能力和強大資料處理能力的綜合載體。
它自螞蟻金服海量的業務場景和資料之中誕生,初衷是支撐螞蟻金服的各項業務,但随着技術逐漸成熟,它也可以具備多場景下的通用性。
金融屬性帶來的高可用性和高安全性,讓它可以廣泛用于其他行業,應對生活服務場景更加不在話下。
這項工作的意義,往大了說,是在推動社會的變革,雖然聽上去是個宏大的命題,但它并非那麼高高在上。
“每一項技術都必有它的落腳點。具體到螞蟻金服,這些技術跟數億人的日常生活緊密相連。”
每一天,當何昌華自己掏出手機使用支付寶結賬付款時,都能直覺地感受到自己的工作成果。就像他在谷歌工作時,每天也都會使用搜尋功能一樣:“自己做出的成果,自己每天都在使用,非常切實地感覺到技術對生活的改變。”
他這樣陳述自己的人生理想。在通往理想的征程中,他既站在技術的最前沿,也身處最為日常的場景中,這二者本就密不可分: