◆ ◆ ◆
消滅“檸檬車”
美國經濟學家喬治·阿克爾洛夫1970年發表的一篇著名的學術論文《檸檬市場:品質不确定性和市場機制》。阿克爾洛夫在這篇論文中,把二手車市場作為在買賣雙方掌握的資訊(資料)不對稱條件下,導緻二手車品質不确定性的一個經典經濟學研究案例。“檸檬車”通常用來形容有人買了一輛二手車後才發現其中有缺陷,讓人覺得像吃了檸檬後那種酸酸澀澀的難受的感覺。為此,阿克爾洛夫與邁克爾·斯彭斯和約瑟夫·斯蒂格利茨一起分享了2001年的諾貝爾經濟學獎。
carfax是一家美國中型電子商務與二手車大資料公司,其主要業務是通過網際網路向美國、加拿大和歐洲個人消費者和企業提供二手車市場上轎車和輕型卡車車史報告。說得通俗點,也就是讓買賣雙方知道他們交易的二手車是否為“檸檬車”并以此作為交易決策依據。
計算機專家巴尼特和會計師羅伯特·克拉克于1984年在美國密蘇裡州的哥倫比亞市成立carfax。該公司成立的初衷,即巴尼特意識到有些車主在出售汽車時惡意回撥汽車裡程表。巴尼特和羅伯特·克拉克看到了這個問題的嚴重性及其可能産生的巨大商機,決心用計算機技術來揭穿這種欺詐并以此為契機創立了自己的公司。
到2013年底,這家企業已擁有800多名員工,各種大資料産品和服務年産值估計達8億美元。它擁有的車史資料達110億條,而且每天都在以百萬條的速度增加、更新。這些資料涵蓋全美國、加拿大和歐洲部分國家公路上行駛的轎車和輕型卡車,包括這些車輛的車主曆史統計、車禍記錄、是否被水淹過、是否被火燒過、是否别人偷來的車、裡程表是否被人往回撥過、是否屬于召回檢查或問題車以及日常保養的細節等等。
如今在美國或加拿大,你買到新車後第三個月,你的汽車注冊資訊就會被輸入這家公司的大資料儲存工場裡。然後你的汽車維修、保養、警察報告的車禍等相關資訊就會源源不斷地被這家公司收集、歸類,進而形成該車的車史檔案。在北美買賣二手車,無論是個人還是經銷商,carfax的車史報告是必不可少的重要參考。
确認資料
無論企業或個人掌握的技術多先進、多強大,做任何項目,弄清市場需求和業務用例永遠是第一步。企業要想知道汽車的裡程表是否準确,邏輯上可以這樣實作:
在知道了該車出廠時間、曆任車主、每任車主擁有此車時的裡程表具體讀數、該車平常的用途(出租、商用或自駕等用以估計其年平均裡程數)等條件後,通過資料整合,進而估算出該車的大緻裡程數。而企業要獲得這些資料就必須和多個機構打交道,包括汽車制造商(擁有汽車原始身份資訊即車輛識别号碼)、經銷商(汽車身份資訊和汽車購買以及銷售時間資訊等)及車管所(管理車主注冊資料包括汽車身份資訊、注冊時間、車主資訊、車主易手資訊)等。例如,一個私家車主,每天正常上下班就在10平方公裡範圍内活動,一年下來,年平均裡程應該就在1萬公裡左右。一輛車如果被開了5年,其間沒有換車主,但裡程表顯示隻有2萬公裡,那麼這輛車的裡程表很可能就被回撥過。
以下這些簡單的資料可以用來檢查一輛二手車的車主曆史記錄:
• 汽車身份證号(vin)
• 顔色
• 種類
• 系列
• 車身類型
• 廠商
• 資料類型
• 使用對象
• 使用形式
• 汽車購進日期
• 汽車賣出日期
• 裡程表讀數
• 資料記錄日期
• 資料來源
帶着這個理念和所需要的資料要求,carfax兩位創始人開始上路了。
收集資料
收集和擷取大資料一般3個途徑,即購買、整合利用現有大資料,或利用大資料工具在(移動)網際網路和其他資料源裡搜尋、截獲所需資料,以及各種方法的混合使用。
carfax的兩位創始人帶着自己的創意,信心十足地敲響了擁有汽車資料的政府服務機構—密蘇裡州哥倫比亞市的車管所的大門。可惜巴尼特和羅伯特的首戰失敗,按這個州的法律,除非有法庭介入,任何人都不能輕易獲得車主的隐私資訊。
巴尼特和羅伯特·克拉克沒有放棄。他們打聽到密蘇裡州當地的一些汽車經銷商協會(屬非營利組織)有部分這方面的資料,并對他們講的故事感興趣。兩人随即和這些協會取得聯系。由于汽車經銷商協會是非營利機構,他們對這種資料要價不高。就這樣,通過改變資料采購管道及與這些汽車經銷商協會的創造性合作,即以購買源資料和交換資料的方式,巴尼特建立了簡單的資料庫并創造出美國曆史上第一個汽車史檔案報告。carfax與這些協會通過資料交換的方式,在免費分享二手車報告的同時,又通過這些協會向其會員宣傳。很快,當地消費者在購買二手車時對這個報告的需求就越來越多。
由于carfax業務量持續增加,聲譽和影響逐漸傳出州外,不斷有外州消費者和公司聯系希望他們也提供相關報告。carfax開始考慮向全美國推廣這項服務。carfax這時采取了幾個重大有效的政策,包括雇用職業律師向各州法院要求各州政府在保護車主個人隐私資訊的前提下,允許其開放二手車資料;雇用職業遊說經理人到法律嚴格的州議會,說服其通過相關法律使各地政府車管所、公路交通安全管理局、警察局和消防局開放其二手車資料。
在市場推銷方面,公司成功通過“口碑推薦”的營銷方式,将全美各地汽車經銷商協會逐一攻破。他們以收購和資料交換的方式,拿到了這些汽車經銷商協會掌握的所有二手車資料。美國加州保護消費者隐私的法律比較嚴,他們尋求公開汽車資訊資料遲遲未果,最後隻好訴諸法庭,控告加州政府阻撓資料公開,經過整整4年時間,最終于2004年達成一個雙方都滿意的解決方案。時任州長的施瓦辛格最後在法律檔案上簽字,他們獲得夢寐以求的、除去使用者隐私的汽車大資料,業務也是以在加州蓬勃展開。
存儲資料
從接觸汽車資料開始,carfax收集到的資料就有規則和非規則兩種:
規則資料:一般從可提供規範資料的汽車經銷商、保險公司、車行、車管所、警察局等處購得。這些機構有自己的資料人才和技術,可以按合同把其擁有的資料做成非正常範的、carfax認可的格式,以便carfax能直接導入自己的資料庫中儲存。 非規則資料:例如大緻可以看清車牌号的汽車圖檔(被報失竊的汽車,被水淹過的汽車等)、儲存在磁卡上的汽車記錄、一大堆從事故車上拆下來的車牌照片、手寫的各種汽車保修單影印件等,carfax通常是從各種專業的連鎖汽修店、汽車事故資料收集網站等地方廉價購得這些資料。
這些非正常的資料才是carfax競争獲勝的秘密武器。因為規範的資料誰都可以輕易擷取。而這些不規範的資料中往往藏有特殊的價值。企業隻有花大量功夫才能把藏在這些資料裡的、有特殊價值的資訊挖掘出來。舉個簡單例子,一輛車被偷了,警察不知道,或其被盜記錄還沒有正式記錄在案,而失主把失竊的愛車照片釋出在網際網路上特定的汽車論壇裡了。carfax通過掃描技術,定期到網上尋找這類資訊。他們找到這類圖檔後,把其中的車牌号跟相關車管所的車牌号比對,進而獲得這款車的身份号(vin),再到資料庫中自動比對其他資訊。等到車輛所需的資訊完全确認後,這款車就上了carfax被盜車黑名單。買車的人或車行一查carfax車史報告就知道這是贓物,不能買。他們每年還通過這種服務幫警察抓盜車賊。
carfax通常采用以下方法來儲藏這兩種類資料:
• 對規則資料,采用vms這種傳統的大型機伺服器來儲存各種各樣的原始資料和報表。優點是穩定性和可靠性強,不容易被黑客攻擊等。
• 像其他企業一樣使用關系資料庫來存儲規則資料。設計開發自己的oracle資料庫和資料工場及各種資料集市等。
• 對不規則的資料則用各種大型磁盤、特殊軟體來儲存。
随着時間的推移,這些大量的非規則資料積累起來,其價值越來越重要。carfax擁有的資料總量也從2002年的兩億條,突飛猛進到2012年的100億條。傳統的關系資料庫和資料工場都已經無法有效駕馭這些真正的大資料了。
經過數月的評估和争論後,到2013年春天,企業高層終于決定放棄原來的老資料庫平台和vms大型機,采用時下流行的、開放源代碼基礎上的文本資料庫。所有資料逐漸轉入monodb的nosql資料庫,同時更新50多個伺服器、10幾個超級硬碟和6個節點。
如今,carfax從7.6萬個資料源獲得的海量二手車資料,無論格式如何,都可以先直接丢進這個新的、超大型資料庫系統裡。他們接着再對源資料進行清理、整合、重構、重新定義、分門别類、建立新老資料間關聯關系,然後把所有大資料儲存在五個出租場地、跨區域的超大型資料(存儲)中心,以便進行下一步的資料分析、管理和産品設計。這五個大型資料中心裡,其中兩個做内部資料支援,其他三個中心則對外支援企業和個人使用者市場。他們同時還額外租用了一個第三方主機托管做資料備份。這種存儲結構除了大幅度提高資料存儲的友善性和靈活性外,這三個中心每個承擔約33%的資料承載量,可以對使用者的搜尋需求提供迅速及時的反應。
管理資料
儲存大資料後,如何有效管理大資料是另外一個挑戰。資料管理職能往往包括對所獲大資料的審計、剖析、清洗、分類、更新、模式化、風險管理和使用者權限管理等各項内容。
由于二手車報告上的資料來自不同的資料源,企業對其進行資料內建和資料變換是資料日常管理中至關重要的一環。在把各方收集到的源資料通過分辨、确認、清洗、內建、變換和存儲進資料庫以前,商務分析和管理人士需要對其進行“審計”,即确認供應商提供的資料是否與其合同承諾的相符,如源資料數目是否吻合、格式是否符合期望的标準、資料可用、不可用的比例如何,源資料與企業的商業用途是否高度相關,源資料的品質如何,是否有無法辨認的數字、文字、不完整的汽車事故和保修記錄描述等。
其次是“資料剖析分析”,即對源資料進行統計分析,從中發現諸如有多少資料可以用在企業正在進行和未來規劃的産品中等。
“資料清洗”工作往往由資料分析師來完成。他們要檢查所有資料,看其是否符合基本格式要求,是否含有那些最重要的資料機關,如車輛識别代号(vin),跟此汽車相關的重要事件(如重大保修,召回等)、任何事故的日期及其描述記錄等。繼而通過資料庫程式把符合要求的、可用的資料提取出來,把可修正的資料修正好,剩餘無法利用的資料可能會退回資料供應商。
資料清洗完成後,資料分析師就通過軟體程式把資料輸入資料庫,并按“公用來源–從政府那裡獲得的資料”和“私有來源–從非政府管道獲得的資料”區分開來。“資料分類”的其他方面是把資料按業務歸屬、保密屬性、可公開程度、使用者支援和通路權限等分門别類,進而在需要之時便于搜尋查詢和跟蹤其使用情況。随着企業通過開發大資料進入不同業務領域的需求日益增加,對海量資料進行快速分類和關聯的任務就越來越重要。分類原則和指導方向也會随着業務的變化而變化,并由此影響未來資料庫的設計和更新。
在管理海量資料時,企業不同業務部門會使用和接觸相同的資料,這些資料可能會經過計算衍生出新的資料,由于每個員工來自不同的業務背景,在用自己熟悉的業務術語來诠釋這些資料并進行内部溝通和交流時,為了提高效率和避免溝通中産生歧義,還需要制定企業内部統一的中繼資料規則和資料字典。有了這些資料管理工具,每個員工都可以很清晰地知道到哪裡可以找到自己想要的資料、它們的記錄如何演變、它們的專業定義如何、它們背後的計算公式是什麼、衍生出的邏輯關聯如何、誰有權可以更改這些資料等。
資料模式化是資料庫管理工作中非常重要的步驟。在掌握了二手車的大量相關資料後,我們會對其進行分析、抽象,從中找出圍繞着包括汽車身份代号(vin)、相關核心業務(如二手車經銷商、保修公司、保險公司、銀行等)在内的各種資訊間的關聯關系,進而确定其資料庫、資料工場和資料集合的架構,通過邏輯和實體模組化手段最終建立和實作對應的中央控制或分布式資料儲存方式。資料管理的範疇往往包括資料更新、模型再設計、結構調整、最優化、性能調試、報表生成和風險管理等職能。每天輸入資料庫的這些資料在經過了一系列的格式化、歸類處理後,就變成了carfax龐大資産的重要部分。
分析計算資料
carfax在面對自己擁有和管理的海量二手車資料時,如何分析并找出其中的特殊價值?
筆者當年所在的産品研發團隊主要日常任務就是根據客戶和企業的戰略規劃需求,通過資料分析和計算方法,去驗證來自管理層、市場部和推銷部門的一個個假設,發現藏在這些資料背後的模式、資料鍊關系圖、未知的資料關聯性等。
我們起初所有的分析都圍繞一部車的曆史細節,屬于“向後看”式分析。後來,慢慢開始通過資料的曆史沉澱,在找到相關二手車可靠性和安全性資料後,結合政府的汽車碰撞試驗資料,形成了對某些車型及其系列的“安全可靠性”分析,開始朝“向前看”的預測式方向靠近,進而使買主在購買二手車時,可以在參考某類車的曆史和其他綜合名額後,對其未來幾年的使用做最靠譜的判斷,進而做出最明智的購車選擇。
carfax的資料分析師和産品團隊成員往往混雜在一起,他們根據具體業務需求與市場、銷售、營運部門緊密合作,這些都使得以業務變化為導向的資料分析更接近市場需求。對于同一部車不同的車史産品供應商而言,誰擁有的資料越多越全,資料分析結果越詳細,誰就擁有絕對的競争優勢。在大資料産品的競争市場裡,價格戰的政策派不上太大用場。使用者不會為了省錢,冒險去買資料不全的産品。
筆者2002年進入carfax資料研發團隊時,其核心産品“車史報告”上還沒有汽車保修記錄這項内容。雖然企業高層早就想把這些内容加進去,但由于大部分保修記錄屬于半規則性資料,市場上沒有一家企業能順利處理這類資料(也就是今天意義上的大資料)。當時公司隻是知道這種資料非常重要,花了大價錢購買了上億條這類資料存起來,閑置但又占儲存空間。
當時carfax買來的這些半規則資料有幾千萬條,要求三個月内完成從資料分析到提取有價值資料,到完成初步分析報告的全過程。筆者跟研發團隊其他成員經過詳細讨論和辯論,決定先去掉與此項目業務要求不相關的資料。我用資料庫程式設計和統計軟體把各種跟汽車識别号、汽車保修記錄與日期相關的關鍵名詞/組及其描述、相關的動詞等提取出來,如“潤滑”“機油”“泵”“發動機”“變速器”“點火”“空氣囊”“安全制動”“制動器”“轉向”“活塞連杆”“燃油”“轉換”“裝”“卸”“拆”等。然後把它們相關的整句提取出來。這個過程結束後,就隻剩一千多萬條與汽車保修直接相關的有用資料了。
資料産品研發
雖然大資料工具在日新月異地變化,但是駕馭資料分析和算法邏輯的能力是形成這類産品的關鍵。carfax的幾大核心産品中,“熱賣二手車”是市場部與資料分析團隊合作的一個經典。傳統來說,汽車經銷商隻是付年費給carfax以便使用其車史報告。為了留住客戶,carfax通過對一些企業客戶曆年的銷售業績、車型及其車史報告關聯分析,發現很多買車人對每月的促銷并不總是很在意,除非價錢與别的商家相差太大。但當經銷商同時提供促銷車的免費車史報告後,買車人的購車意願就大大增強了。carfax于是嘗試性地把車史特别報告植入其線上促銷廣告中,結果該經銷商當月的銷售量大大增加。
就這樣,carfax為大批汽車經銷商設計和量身定制了“熱賣二手車”促銷輔助産品。這款産品與汽車經銷商月銷售二手車捆綁促銷,在幫助其快速售出當月促銷産品的同時,鞏固了客戶忠誠度,提高了客戶滿意度,迫使競争對手跟進,同時為carfax開辟新的營利管道。
處理海量半規則、非規則資料在2003年還不像今天這樣有衆多友善的工具可供選擇,carfax之是以能比所有對手提前兩年做出産品來,全靠傑出的資料分析和算法邏輯能力作為後盾。
此後,他們還與企業客戶一起開發了大資料協同解決方案,研發了一系列成功的創新産品。其中與銀行和保險業合作的大資料産品特别值得一提。大多數美國人買車都要從銀行貸款、買車險。對于二手車來說,貸款和保險數額取決于個人征信(大資料當下在中國的另類火爆應用,美國已非常成熟)和該車的曆史記錄。而carfax作為行業領軍企業,其20多年的大資料産品創新成績是當然的合作選擇。由于他們擁有全北美和歐洲發達國家的大部分二手車記錄,其創新做法也非常直截了當。carfax先為合作銀行和保險公司等客戶設定專屬賬号,再根據銀行和保險公司提供的二手車樣本資料,很快調出這些車的詳細曆史資料。
創新團隊依據這些客戶的衆多業務原則,與客戶一起決定資料的篩選,對資料分析和計算制定詳細的規則,把300多條規則(計算公式)植入客戶對應的不同業務裡(如商業銀行、信用社、保險、财産擔保和專業汽車貸款等),進行相關資料演算。他們最終為不同行業、不同企業定制了不同的車史報告産品,為客戶在準許合理的汽車貸款、保險和擔保額方面提供精準的資料支援。
carfax的創新案例對于中國的大資料創新有很多特别的啟發意義。根據carfax的調查,當一個國家的二手車數量達到千萬輛後,車史報告就開始出現市場需求了。進入2015年,随着政府和社會對大資料技術及其運用的廣泛重視,無論今後國内是否能出現類似carfax的産品,最關鍵的是——一個開放的大資料環境,對企業、政府和個人做創新都至關重要。
原文釋出時間為:2016-02-13
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号