作為網際網路金融領域的先行者,成立于2009年底的阿裡小貸發展初衷即是為淘寶和天貓上的賣家提供小額貸款業務,實作“讓天下沒有難做的生意”的目标。伴随産品形态的豐富,服務對象的擴充,小貸業務增長迅速,平均每年增長速度在四到五倍左右。經曆了近5年的發展,已有超過36萬人從阿裡小貸借款,最小貸款額為1元。
與傳統銀行不同的是,阿裡小貸重塑了一套信用評價體系和信用概念,其小額貸款模式不需要抵押物,是純信用貸款。信用從何而來?來源于貸款者線上經營信用資料、财務資料等等,阿裡小貸對貸款者在網際網路上積累的海量資料進行分析予以授信。資料成為阿裡小貸業務模式的基礎,也是核心所在。究其根本,這是一筆資料生意。這筆資料生意,從第一天起,就根植于阿裡雲計算飛天平台之上。
“3分鐘申請、1秒放款、0人工幹預”,這是阿裡小貸獨有的一套高效工作模式,這樣的高效有賴于其背後獨特的業務模式,它将是否放貸、貸款額度和風險評估等傳統銀行最為看重的業務環節完全交給了大資料處理平台。阿裡小貸資料倉庫的總共資料量十多pb。每天處理上pb的資料量,包括店鋪等級、收藏、評價等幾百億個資訊項,運算上百個資料模型,甚至需要測評使用者對假設情景的掩飾和撒謊程度。最終使用者能否申請貸款、能貸到多少錢,完全依靠的是大資料平台為其計算出來的信用值。這些無疑對大資料處理平台的可靠性、安全性以及計算的準确性提出了極高要求,算錯一筆可能就會造成比較大的資金損失。
為了確定資料計算的準确性,阿裡小貸要從各個層面去挖掘申請貸款的賣家或者消費者的資訊,這個過程幾乎會用到整個阿裡集團包括淘寶、天貓、b2b和1688等多個業務部門的資料,以及集團外部的社會征信資料。這也使得阿裡小貸聚集了多個項目的技術骨幹。其中,負責阿裡小貸資料倉庫的基礎模型和基礎平台建設的架構師陳鵬宇和負責早期運維工作的資深經理張國保就是項目中重要的技術負責人。近日,他們深入分享了阿裡小貸技術演進曆程。
據他們介紹,小貸業務目前每天從外部同步過來的資料量上百tb。資料同步過來之後要經過小貸資料倉庫的三層加工,加工結果以名額(輸出模型要用到的離線變量)的形式傳遞到阿裡集團的通用決策系統agds。通用決策系統能夠支援上萬種資料倉庫提供的離線變量,包括買家、賣家及店鋪交易等所反映出的衆多資料。此外,它還會從其他系統擷取一些實時資訊,如賣家目前的交易情況、具體的處罰情況等,并結合這些實時資料和資料倉庫的離線變量動态計算賣家的風險程度和授信模型。是以,通用決策模型是小貸真正的業務引擎,其上大約有幾千條規則,可以了解成一條有幾千變量的公式,能算出賣家的最終授信模型。在放貸系統申請時,這個引擎就能告知它是否可以放貸、大約可以放多少錢等。這便是小貸依據資料計算做業務決策的整個過程,如圖1所示。

此外,阿裡小貸的業務特點決定它對安全性和實時性也有很高要求。阿裡小貸使用了多方資料,包括集團内部的資料以及其他合作夥伴提供的資料。這些資料都高度敏感,阿裡小貸作為使用方有義務確定資料安全,是以對平台的安全性有較高要求。而且發放貸款之後,要做好貸後監控。小貸通常會根據貸款人的網上行為資料,對其信用風險進行評估。這種評估做得越及時,就越有可能在出現異常時提前發出預警、挽回損失。而準确性、安全性和實時性等阿裡小貸的核心業務特性都得到飛天平台的有力支援。
由于阿裡小貸的業務與資料相生相依,伴随資料來源的廣泛增長,資料庫會越來越龐大,任何傳統資料平台都沒有能力支撐這種業務模式,同時,前文提到的阿裡小貸對準确性和安全性的嚴苛要求,當時業界并沒有成熟的解決方案,結合雲平台在存儲和計算方面可以提供的強擴充能力,阿裡小貸成為“飛天”平台的第一批使用者,并見證了飛天平台的每一步成長(如圖2所示)。反過來看,也正是“飛天”這樣強大的雲平台,才能支援小貸平均每年四到五倍這樣近乎野蠻的業務增長速度。
2010年4月10日小貸業務第一款基于“飛天”的貸款産品――淘寶訂單貸款釋出,隻面向杭州地區提供服務。那時的飛天叢集隻有30台伺服器,小貸業務用了兩個叢集,資料處理引擎是sql engine 0.2。兩個叢集同時運作相同的業務,計算出結果後,需要人工将計算結果備份到另一個叢集。同年9月,阿裡小貸決定将業務開放到全國,然而在一切準備就緒時,發現當時的叢集規模無法支撐那麼大的計算量。這時,飛天團隊做了一件當時看起來很了不起的事,将叢集規模從30台擴充到100台,sql engine 0.2更新成0.8版本,保障了阿裡小貸在2010年11月順利将業務擴充到全國。
2010年底,阿裡小貸的貸款模型由原來的兩個(授信和貸後預警)發展成十個。大家逐漸發現,要想支援這麼多模型不能再采用煙囪式的方法,因為拿到資料後要走很長的加工鍊路,才能得出要用的名額。這時,需要有一個底層的公用資料庫,于是大家開始動手建資料集市。此時,又遇到了跟當初擴充全國業務一樣的問題,叢集處理能力再次受到挑戰。飛天平台再一次做版本更新,将資料處理引擎從sql engine 0.8更新成data engine 0.2,data engine 0.2有兩項重大突破:1.存儲壓縮,壓縮比可達到2~5倍;2.計算性能大幅提升。最終,叢集規模瓶頸被成功突破,飛天為阿裡小貸性能提升提供了足夠的存儲和計算能力。
随着業務的發展,資料挖掘項目對阿裡曆史資料的需求越來越大,有些項目甚至需要從2003年淘寶成立以來賣家的所有資料中去挖掘資訊,這便對資料跨度和品質提出了很高的要求。于是,阿裡小貸開始建構大型資料倉庫,但這無疑給飛天提出了更大挑戰,尤其是在穩定性方面一定要有所保證。odps的研發開始,将data engine與運作于雲梯1上能支援1500台伺服器的莫邪合并,将莫邪作為odps的資料處理引擎。同期,飛天将叢集伺服器規模擴充到千級别。這時對阿裡小貸來說,等于odps将飛天平台包在了底層,主要由odps來對阿裡小貸的業務提供支援。
2012年初,集團開始将資料魔方、淘寶指數、tcif等重要業務從hadoop叢集遷移到odps叢集上,從一定程度上解決了一直困擾阿裡小貸的資料共享問題。此前,阿裡小貸共享集團資料時大部分要到hadoop叢集去取,資料同步、上遊資料複制、下遊時間銜接等都有可能出問題,很難保障資料産出的品質和穩定性。
業務遷移完成之後,開始在odps叢集上建一個集團的資料中心,也就是ods層,專門彙總阿裡各個業務部門的資料,然後在其上提供一個基礎的統一資料服務。總的來看,對比hadoop,odps優勢很明顯:
odps有一整套的資料隔離、授權模式特性,在資料的邏輯隔離做得很好,同時提供了多種權限管理政策:acl、policy、labe等,最厲害的是,在資料嚴格隔離的情況下支援混合計算――protected模式;
odps在資料計算和資料管理等方面的實用性功能更加豐富,在很多方面可媲美傳統的rdbms,例如一些複雜的開窗函數查詢等;
odps産品易用性較好,上手容易;
在5k之後,odps叢集的可擴充性理論上具備無限擴充的能力;
odps支援多租戶模型,在資料、資源的配置設定和隔離等方面可以較為靈活地控制;6.性能和穩定性方面,雖然兩者相差不大,不同場景下各有優劣,但odps顯然走得更遠。
集團的odps資料中心和阿裡小貸的業務系統放在同一個叢集中,必然造成随着業務增長争搶資源的現實。但如果将資料分開存儲在兩個叢集的話,又與之前将資料從hadoop叢集拷到odps叢集來計算并無二緻。這時,擴充飛天叢集規模成為必然之選。也是在這個時間,“飛天”已經邁向5k時代,平台和技術的發展走在了業務需求的前面。
提到飛天5k,除單叢集規模由1000多台更新到5000台之外,其實還有另一個更重要層次的意義不能忽視,這5000台并不是一個天花闆,odps叢集之間有很強的跨叢集複制能力,確定了叢集之間很好的連通性、資料有更好的共享性。現在,odps資料中心已搬到另一個飛天5k叢集上,但得益于5k的跨叢集複制能力,使得ods層可以為多方提供資料而無需顯式拷貝,使用者感覺不到叢集的變化或資料傳輸延遲。
2014年7月8日,odps正式開放對外提供服務。此前,odps一直是阿裡巴巴内部的秘密武器,第一個使用者就是阿裡小貸。傳統的資料倉庫一般都搭建在oracle等關系型資料庫上,而阿裡小貸搭建在飛天平台上,是以必然會要求odps能提供很多關系型資料庫的功能,例如,存儲過程程式設計能力,以及很多資料分布的開放函數和資料分析函數等。這在技術上非常有挑戰性,因為在odps這樣的分布式架構裡解決這些問題要比在關系型資料庫中難很多。odps比較逼真地模拟了傳統rdbms的實體表和視圖概念,包括存儲分區都很像oracle,能支援很多傳統資料的功能。
然而,在odps上建構一個大型資料倉庫的過程中,仍然有一些地方需要注意,這裡分享一個最為關鍵的點――資料管理粒度的劃分,即odps和project的劃分。基本上可将odps了解成一個資料管理的基本單元,常見劃分粒度的方法有幾種:按照層次分成幾層,每層一個project;或者整個資料倉庫為一個project;或者每一個主題資料為一個project等。這個粒度劃分對于後期的管理成本有非常大的影響。但針對不同團隊的不同階段會有不同的劃分方案,并沒有什麼絕對的劃分方案,一般會從幾個次元來思考:資料倉庫所面向的使用者範圍及資料業務要面向的人群,不僅是開發者,使用者也會在資料倉庫上直接使用資料;團隊内部的協同方式,如何決策和分工;資料安全方面的一些政策,例如資料倉庫的基礎層可能不開放,那麼它是如何對其他系
統做輸出的,不同的輸出政策也會影響資料管理粒度的劃分等。一定要在建構資料倉庫之初,将資料管理粒度劃分好,因為除非來一次比較大的重構,基本上很難有回頭路。
從阿裡小貸這門資料生意的發展曆程不難看出,小貸業務與阿裡雲之間既有互相磨合,又有互相促進,進而成就了彼此業務的迅速發展。而雲計算為小貸業務帶來的則不僅僅是平台的支撐、成本的降低,從某種意義上講,雲計算是這種以資料為核心的新型網際網路金融業務可以依托的天然平台。
伴随着底層技術的不斷完善與持續發展,更多中小企業可以在雲計算平台上獲得資料存儲、資料處理服務,并進而建構豐富的資料應用,雲計算使得每一個中小企業具備和大企業同步起跑的底氣,支撐更多創新服務的湧現,這是雲計算承載的重要意義所在。
<a href="https://lingyun.aliyun.com/4/practice-cloud.html" target="_blank"><b>原文連結</b></a>