天天看點

阿裡巴巴西湖品學大資料峰會觀後感

阿裡巴巴西湖品學大資料峰會觀後感

會上沒有提到太多高大上的算法和模型,更多的是在商業社會中如何把大資料應用起來。總的感覺這次會議的主題是“資料+商業”,也就是如何讓資料在商業社會中産生價值。這個topic非常廣泛,遠遠超過了一般網際網路盈利模式(廣告+遊戲)的範疇。對于我們做大資料的朋友來說也是一樣的,過去我們經常提到的搜尋引擎、計算廣告和推薦系統基本上最常見的大資料應用場景了。但是随着大資料與商業社會的結合,産生了需求新的玩法。

阿裡巴巴資料委員會會長車品覺提到了美國在大資料領域的頂級會議strataconf,提到了現在最重要的是把大資料應用落地,也就是”data engineering”的概念。我的了解工程化就是讓大資料成為大家工作中必不可少的一個工具,不再是一個高大上的概念。他同時提到資料要穩定、資料挖掘出來的結果可解釋(data scientist的要求之一就是storytelling)。在以前的商業社會中做決策要大家讨論來讨論去,更多的是靠在這個行業内的經驗來說話,現在新的玩法更應該是用資料來說話,用資料來支撐決策。他也提到目前在大資料商業應用中的主要問題:人才不比對、資料備援、工具不統一、安全、資料品質等。他還提到了從it到dt的轉變。

阿裡小微金融集團首席風險官胡曉明演講的題目是《商業驅動下的大資料》,把大資料的應用領域拓展到網際網路金融這個目前看來最熱的領域。我特别贊同他提到的這樣一句話“資料沒有大小之分,資料隻有是否被商業認知之分”,我的了解是再大的資料如果不能發揮出商業價值、不能支撐商業決策、不能幫助帶來商業利益都是沒有意義的。是以“資料+商業”的核心還是應該從商業的需求出發,通過資料的手段找到能夠使得業務增長的突破點。

我把他提到的金融機構發放貸款的例子做了個抽象總結如下:

目的:發放貸款使銀行等金融機構賺錢,控制風險率和不良貸款率。

傳統金融的玩法:傳統商業銀行發放貸款要考慮的幾個因素:抵押擔保(這也是很多小微企業拿不到貸款的原因);貸款企業的利潤率、還款能力(資金流水)、還款意願(前面幾期借的錢是不是還上了),而對這些因素的判斷來自他們對原來負債的經營行為。

網際網路玩法:網際網路建構起的是虛拟社會,線下的行為無法獲得。淘寶上的商家很難判斷利潤率,更無法得知他們借了多少錢,有沒有還。但是小微企業信貸的目的還是一樣的,就是要控制風險和不良貸款率,那麼怎麼辦?看看商家在淘寶平台上的其他資料有沒有能夠幫助達到這個目的的。網際網路小微企業信貸會去看商家的經營規律,看消費者對商家的評估,看商家的經營行為中的守信程度(類似行為金融學)。根據這個去分析商家的好壞,建立對他的評價。他提到阿裡小微金融已經為70w家企業提供貸款,整體貸款累積量1800億,而且從來沒有見過貸款人的面。風險率和不良貸款率比商業銀行還要低,而且是沒有抵押和擔保的。

我想這是一個非常典型的大資料支撐商業的案例,沒有提到高深的計算廣告、時髦的深度學習,靠的是對業務的了解,看哪些資料背後表達的意思是跟業務緊密聯系的,哪些資料能夠被商業充分認知。他也提到從it到dt的轉變,阿裡巴巴的目的是讓資料被社會所用、被銷售所用、被制造業所用、被消費者信用所用,讓阿裡巴巴的資料成為中國商業的基礎設施,也就是大資料在各行各業中都發揮價值。資料要想被廣泛使用涉及到一個重要的環節:資料如何開放?資料開放除了我們經常提到的資料平台(像hadoop或者其他資料系統)的建設,更重要的是資料的安全和使用者的隐私。他提到了資料要脫敏,同時資料的商業定義、每個标簽打的要足夠清楚而且不涉及隐私。他還提到了用大資料保證賬戶、資金安全:開放就會帶來安全和隐私方面的一些隐患, 怎麼通過大資料來解決。分析一個人的行為,在手機上的操作行為,在pc上的操作行為,甚至研究他在輸入帳戶每一個字母的間隔距離、間隔時間,我們去看他在手機上輸入密碼的速度,如果是通過機器掃号,或者别人偷你的帳戶,都是有異動性的。這個看起來是挺複雜的沒有多大意義的事情,當它能夠帶來的商業價值足夠大的時候就變得非常重要了。是以還是那句話“資料沒有大小之分,資料隻有是否被商業認知之分”

acxiom的程傑博士主要的point是資料的連接配接才能産生價值。

他首先提到了大資料領域常見的關聯關系,例如某地區紙尿褲銷量上漲意味着什麼?如果是嬰兒紙尿褲意味着出生,如果是老人紙尿褲意味着老齡化。

一些大公司比如花旗銀行,大的人壽保險公司,大的零售商等會有一個現象很有意思,他們看每個消費者是很窄的,他們看到的是用自己的産品品牌去看一個消費者,是以他們看到的消費者的資訊是片面的。等八小時之後他們自己是消費者的時候,他們把視野擴大了很多。是以這就是一個問題,如果我們回到消費者本身,而不是局限于消費者這一部分資料的了解,我們的商業行為也會更有效。這個例子說明的主要問題就是不要把資料孤立地看待,要把多方位的資料連接配接起來。我跟一個同僚講過這樣一個故事,說我的一個朋友每個月在某個遊戲上面會花幾百塊錢,然後他說我那個朋友是個高帥富。我說你猜錯了,他隻是一個普通的打工者。因為他隻是看到了使用者的某一個方面,沒有深入了解這個使用者的其他方面就武斷地下了結論,得到的結論就有可能是錯的。資料很多,但是資料的價值是不一樣的,尤其在資料的不同連結、不同整合的基礎上,他們表現的價值完全不一樣。哪些資料價值大?怎麼連接配接價值大?這個決定因素還是你使用的商業場景。

他還提到acxiom在美國管理一個消費者的資料庫,有2.4億個成人在這個資料庫裡面,美國總共人口是差不多4億,2.4億成人就是18歲以上都在這個資料庫裡面。這2.4億相當于是1.4億個家庭,每個家庭有1700條資訊,再加上4000個購買傾向性模型打分。我的了解就是acxiom這個公司是個資料整合和交換平台,是以他們在宣傳資料連接配接也是符合其公司定位的。

最後他還舉了個例子:資料沒有連接配接、沒有打通,相當于有車沒路

linkedin的商業分析部門總監simon zhang 首先分享了linkedin的商業模式。這個思路很好,更是說明了那個問題:要想用好大資料,先得明白商業模式。linkedin的商業模式是資料與業務雙向驅動、不斷疊代良性循環的一個特别好的例子。第一步是使用者的增長以及使用者的體驗;第二步使用者的增長和體驗增加了很多的背景和前台的資料;第三步是從這些新的資料裡面産生了更多的解決方案,産品,更好的客戶體驗。這些客戶體驗産品和解決方案,再一步推動了商業的增長,使用者的體驗,使用者的增加,進一步産生了更新的資料。所有的銷售人員,市場推廣人員,産品經理,開發人員,以及客服人員,他們都有大規模的資料來輔助他們做更好的工作。他們的目标是在it技術和bussiness之間找到平衡點。

據我了解目前linkedin從事資料相關的團隊主要有兩個:

1,data team,偏技術,大家可以通過data.linkedin.com了解他們做的一些主要的系統、項目。linkedin有大約25中db,100多種data source。業務方對這些系統和服務的要求:簡單、迅速、規模化

2,商業分析部門,也就是simon zhang所帶領的部門。這個部門的主要工作我想是偏業務的資料分析和挖掘。

那麼對于支撐這些業務部門的商業分析部門的人都是幹什麼的?

1,商業分析師,占50%

2,提供bi工具(不是報表)

3,data infrastructure (不是hadoop,是在hadoop之上提供的資料服務)

4,text mining(可能跟linkedin的主要産品是以文本的形式提供有關)

5,非常少的戰略決策分析師,這部分人思考問題非常結構化,高屋建瓴。往往具備多年的企業管理經驗

6,machine learning, data mining, data scientist

他提到對于人的挖掘和分析:一個人是有多面性,需要挖掘各個方面的屬性。但是幾乎所有的産品都存在資料稀疏性的問題?怎麼解決?可以通過不同次元的資料産品和營運活動來勾引使用者的資訊、豐富和完善我們的使用者屬性,同時也增強了使用者的互動性和粘性。

過去“業務方提需求然後rd滿足需求”的疊代方式周期太長了,等着項目結束了資料早已失效了。現在他提倡的解決思路是矩陣化,我的了解也就是data scientist的職責,這個人要負責“資料需求的提出、名額或者日志的定義、資料的分析和挖掘、資料在業務中的應用、收到使用者回報之後的持續優化”。這樣的一個職能就是相當于一個人從頭跟到尾,這個人是非常熟悉某一業務的、而且這個人也必須懂基本的資料技術和工具,懂得如何用資料驅動産品和業務的發展。資料本身沒有意義,有意義的是其中的分析。

現在研發、産品、市場推廣、銷售和營運等部門不需要找分析師,通過資料系統和工具就可以直接拿到需求報告,而這些團隊的工作是分析核心資料,做決策建議。他舉例說比奈是自己動手畫畫,而不是給别人提需求讓别人按照他的思想畫畫的。後面他還提到了對分析師的要求“好的分析師能改變未來,一般的分析師能改變現在,差一點的分析師連曆史都不知道”。

後面他還舉了一些例子來說明如何讓資料在業務中發揮價值。一個就是通過bi幫助使用者增加活躍度,防止客戶流失。這個思路和我們以前做的使用者流失和召回的思路是非常一緻的(說明我們的使用者挖掘和研究還是有一定成果的),典型的思路就是不能為了召回而召回,而要根據我們産品的特點去分析使用者和産品的各種次元的關系,找到流失的原因和召回的思路。

他還同時提到“a/b測試”在産品分析方面的實戰,linkedin有數千個線上a/b測試幫助決策。大家不用争來争去到底哪個方法更好,放到線上去做“a/b測試”就行了。

唯品會的vp分享了資料化決策如何更靠譜。他首先給大家分享了幾個他們工作中經常遇到的問題:

1,使用者的行為背後如果是理性的,那麼可以分析和挖掘出一些規律。然後女性購物者(唯品會女性購物者比例非常高)在網上購物往往是非理性的、沖動的決定。那麼,資料團隊或者業務團隊怎麼可能用完全理性的邏輯的分析判斷使用者行為?

2,資料團隊的kpi如何拆解的問題?

3,在做決策的過程當中往往去尋求一些依據,但傾向于去尋找一些支援我們觀點的證據。實際上在商業環境下,管理者常常是有自己的一個判斷。有了判斷之後,他第一件事是說,資料團隊你去幫我找資料證明這個觀點,資料團隊往往會傾向于絞盡腦汁從各種次元去找一個資料來證明老大的觀點。

然後他提到了解決這些問題的一些方法,他提到如何在企業内建構資料文化:

1,業務是首要的,不要迷信資料。從客戶中能夠獲得第一手資訊可能比從資料中獲得更簡單、高效。資料不會告訴我們全部真相,但是客戶可以(有點像砸場子的)

2,統一公司内部不同部門之間的統計口徑,有共識的名額體系

3,資料團隊要關注業務,關注業務的痛點,不要隻關注數字本身。冰冷的數字沒有意義,資料和業務結合才會産生價值。

4,資料既要安全隐私,也要共享打通

5,資料的時效性非常重要

6,資料的粒度和管理成本。不要上來就搞的很細,先給個大面上可用的資料用起來,然後看效果。這個是跟搞科研不太一樣的,不用上來就搞很多理論證明啥的,先給個大面上過得去的資料用起來。小步快跑,快速疊代。

7,在一個企業裡面,建立資料化決策的流程,遠遠重要過我們現在有一個多麼強大的資料系統和資料分析團隊。資料團隊更重要的是去發現,證真和證僞的意義都非常大。管理者需要有資料支撐決策的意識,分析師需要深入業務。決策者要有一個謙虛的心态去學習,要能夠盡可能的謹慎的發表有個人傾向的意見,鼓勵下面的團隊尤其是資料團隊去建構更紮實的基礎、更好的決策流程。這是一個管理者對資料化決策的程序推進能起到最大的作用,而不是他親自上手去指揮去設定一些項目或者目标,然後讓下面快速去執行。

<b>原文釋出時間為:2014-04-11</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>