天天看點

李文卓:揭秘美麗說資料體系建設三部曲

文章講的是<b>李文卓:揭秘美麗說資料體系建設三部曲</b>,毫無疑問,美麗說的使用者是女人,而自古以來女人對于美麗的追逐則是個永恒不變的話題。在2009年美麗說出現之前,網絡上并沒有一個非常出名的社群或者網站被愛漂亮時尚的女人所共同認可,據美麗說CEO徐易容稱:“這部分人的需求并沒有很好的被發掘出來”。

李文卓:揭秘美麗說資料體系建設三部曲

  創立于2009年11月的美麗說是國内最大的女性快時尚電子商務平台,2013年底從時尚導購網站轉型成為時尚垂直電商平台,緻力于為年輕時尚愛美的女性使用者提供最流行的時尚購物體驗,擁有超過1億的女性注冊使用者,已獲得四輪風險投資。

  在美麗說的使用者看來,每天必上美麗說的理由除了氛圍外,還有推薦的商品品質較高,資訊搜尋快捷有效,使用者體驗較好;而在專業人士看來,美麗說成功的關鍵則是提高了女性使用者的購物時間成本效益。什麼叫時間成本效益?就是在機關時間内找到滿意的物品的比例。找到心儀的物品,時間越短,時間成本效益越是高。美麗說幫助女性使用者集中可能的選擇,排除相對不可能的選擇,進而完成一次時間成本效益高的購物過程中。

  在這個購物過程中資料在其中扮演着關鍵角色,隻有基于豐富的使用者行為資料,以及個性化推薦算法,美麗說才可以幫助使用者快速精準地找到最合适的潮流單品。那美麗說是如何做到精準推薦?如何保證和持續改進資料品質的?資料體系是怎樣建設的?老魚今天專訪了美麗說大資料部門負責人李文卓,為大家揭秘美麗說資料體系建設三部曲。

李文卓:揭秘美麗說資料體系建設三部曲

美麗說資料智能部技術總監李文卓

  以下來自IT168老魚對美麗說大資料部門負責人李文卓的采訪實錄。

  IT168老魚(Q1):您好,很高興有機會采訪到您,請先向IT168網友介紹下自己?

  李文卓:我是李文卓,美麗說大資料部門負責人。加入美麗說之前曾在百度工作,負責過搜尋算法,pc用戶端,内部平台工具建設,以及和資料相關的系統,平台,評估,分析等工作,參與過的産品涉及中國和日本兩個市場。目前任美麗說資料智能部技術總監,立志打造電商行業一流大資料團隊。

  IT168老魚(Q2):您在今年的資料庫技術大會上的演講内容核心是“資料”,今天我們的采訪話題也将圍繞資料展開,您能否用資料為我們介紹下美麗說?雖然大家都知道美麗說,但絕大部分認知僅限于美麗說是個做的還不錯的時尚垂直電商平台,更多的可能就不知道了,今天能否為我們解密一些資料?

  李文卓:是的,美麗說是中國最大的女性快時尚電商,并成為最大的時尚發現平台,為使用者創造最好的時尚發現體驗,擁抱一切時尚愛好者,我們希望用網際網路技術重新定義時尚行業,緻力于為18~30歲的年輕時尚愛好者提供發現流行、評價、品質可信的時尚商品的平台。

  截止目前,已有1.5萬家時尚優質商家入駐,每日新上架時尚商品超過10萬件。2014年全年商品成家總額56億,預期2015年目标商品成交總額将達到150億。

  美麗說的使用者,85後和90後占比達79%,主要集中在北京、上海、廣州等一二線城市。

  IT168老魚(Q3):美麗說13年底從時尚導購網站轉型成為時尚垂直電商平台。在這個轉型過程中,資料智能技術扮演了什麼樣的角色?能否在這裡分享下轉型過程中發生的故事。

  李文卓:确實,在美麗說轉型為女性快時尚電商平台過程中,資料智能技術在其中發揮了重要的作用。美麗說通過傳統門店無法比拟的網際網路技術手段,擷取了及其豐富的使用者行為資訊,并且進行深度的分析與挖掘。簡單地說,使用者行為分析就是使用者在網站上發生的具體行為,如搜尋、浏覽、打分、點評、加入購物車、取出購物車、加入期待清單、購買、使用減價券和退貨等操作。通過對這些資料的挖掘和分析,非常清楚地知道不同款式衣服的淡旺季、節點、熱點在哪裡,也可以知道各個季節、地區的規律性變化,這些就為産品、商家、貨源等一系列決策提供非常關鍵的支撐。同時基于豐富的使用者行為資料,以及個性化推薦算法,美麗說可以為使用者快速精準地找到最合适的潮流單品。

  IT168老魚(Q4):美麗說是從什麼時候開始重視資料建設的?目前美麗說的資料量是什麼量級?能否透漏下您今年的資料庫技術大會上的演講要點?

  李文卓:美麗說從成立之初就非常重視資料的建設,當時就已經有了獨立的資料團隊,特别是在公司轉型為女性快時尚電商平台之後,資料建設的重要性被提升到公司戰略層面整體考慮,資料智能部作為承載此戰略的載體也順勢成立。

  今年資料庫技術大會,主要是想結合美麗說資料建設以及個人從業的經曆,分享一些資料體系建設的體會,主要會側重在以下3點:

  1、基礎日志的治理,日志是網際網路公司擷取資料非常重要的來源,日志的規範和治理體系也是資料體系建設非常根本的地方。但日志資料都屬于非标準資料,資料量也非常龐大,其治理是一個非常複雜而且具備持續性的工作。

  2、資料倉庫的建設,這是資料體系建設的核心所在,資料倉庫建設的水準會決定資料服務團隊的服務能力。

  3、資料品質建設,該部分和基礎日志有很大關聯關系,主要還是側重在如何保證基礎日志資料和資料倉庫資料的品質上,以及美麗說的資料品質中心是怎麼建設的。

  更多的細節,請大家關注當天的分享。

  IT168老魚(Q5):美麗說的資料倉庫體系結構是怎樣的?設計目标是什麼?在資料倉庫建設中美麗說都遇到了那些問題和收獲,有沒有總結過?

  李文卓:美麗說資料倉庫體系結構在設計上也是遵循傳統的資料倉庫三層結構的,由基礎層(ODS),中間層和報表層組成,基礎層主要存儲的是ETL之後的全局基礎日志資料。報表層主要存儲的是資料彙總模型,更通俗易懂的說,報表層資料主要是面向需求的彙總資料。中間層存儲的是流量、支付等資料主題模型,該層需要承上業務需求,啟下基礎日志資料,是以該層的主題模型建設至關重要。

  在美麗說資料倉庫的建設過程中,不同階段會面臨着不同的問題,也正是這些問題,讓我們在資料倉庫的建設過程中不斷收獲。比如,在剛開始決定進行資料倉庫建設時,底層日志比較混亂,造成資料不穩定,資料倉庫建設很難開展,是以我們将目标轉向先進行基礎日志資料的治理上,繼而逐漸建立起了一套完整的基礎日志管理規範以及配套的系統;在資料倉庫建立起來後,資料流向不清造成上層業務資料修改不徹底,底層資料修改對上層影響不透明,資料深層次的品質問題等一系列問題集中出現,我們在這個階段推動建設了資料品質中心,很大程度的緩解了這些問題對資料倉庫的影響;由于資料倉庫具有長周期高收益的特點,是以在面對快速出現的新業務和新産品時,在及時性上存在很大的缺陷,我們在實際的實踐中,也逐漸建立并完善了針對新業務和新産品的資料支撐和資料倉庫建設機制。

  IT168老魚(Q6):資料作為企業核心資産重要性不言而喻,而資料品質無疑是資料建設的重中之重,美麗說如何保證和持續改進資料品質的?資料品質的提升對業務和營運決策帶來的提升都有那些?

  李文卓:我們專門成立了一個資料品質建設的方向,用來持續完善和豐富我們的資料品質體系。到目前為止,我們已經建立起了由涵蓋基礎日志、線上重要業務庫、資料倉庫,資料應用中繼資料的中繼資料管理系統,資料監控離線/實時掃描系統,以及包括異常分析、産出分析、合理性分析、血緣分析的資料品質分析系統等等一系列系統組成的資料品質中心。

  這一系列資料品質基礎系統的持續建設,使得經由資料倉庫提供給公司業務和産品使用的資料準确性和穩定性有了非常明顯的提升,特别是對于很多涉及到交易和支付這類對于準确性要求很高的資料價值比較大。

  IT168老魚(Q7):我了解到您一直從事資料方面工作,請您從個人職業生涯感受,為我們網友分享下工作中的心得與體會?

  李文卓:心得稱不上,隻能算是簡要說說同齡的朋友應該都會有同感的一些體會:

  一、從小事做起,沉的下心,吃的了虧。這句話說起來雖然簡單,但是道理深刻。在資料這個行業,每天都會面臨各種瑣碎的資料需求,繁複枯燥的資料分析,如果一上來就是誇誇其談好高骛遠,斤斤計較于自己成長上一時的得失,那麼決然是做不好資料的。每個行業都有其比較成體系的職業發展路徑,隻要潛下心來,放穩心态,不管是什麼行業,都能有自己很好的施展空間。

  二、認準了,就去做,不跟風,不動搖。在實際的工作中,很多事情知易行難,關鍵還是要有行動,要能堅持下去,出錯不怕,就怕不敢犯錯,犯錯不會去總結和反思。三、開放心态,學習心态。我了解為,開放心态的人,不會自以為是,才能真正做到對事不對人,保持活性,不斷的接受新的東西。而學習心态,不僅僅指的是從書本學習,也指從實際的工作中學習,從周圍同僚那裡學習。

  四、涉獵一些其他領域的知識。乍一聽感覺和工作不相關,實際上相關度還是比較大的,畢竟很多事情往更高層次做的時候,主要都是在思維和思想的層面。建議大家平時在關注資料這個大家擅長的方向外,也多一些其他領域的關注。

作者: 覃裡

來源:IT168

原文連結:李文卓:揭秘美麗說資料體系建設三部曲