天天看點

多源資料融合:大資料分析的瓶頸

資料處理新工具使資料科學家從資料準備的繁瑣工作中解放出來,但如何根據每個資料分析項目量體定制,融合多源資料以形成有效的分析資料集仍是資料科學家必須面對的一個更具挑戰性的瓶頸。

多源資料融合:大資料分析的瓶頸

利用網際網路購物的營銷資料來追蹤和勾畫消費行為并以此為據促銷是大資料應用的成功典型案例。有些人已此将大資料吹得神乎其神,好像它能成為萬能藥。其實,這隻是大資料應用中的很小一部分。作為智能決策的支援手段之一,大資料在企業、事業、政府、社會管理和發展上的應用是更重要的挑戰。在這裡,多源資料的融合就成為大資料分析中的瓶頸。

每個親身參加過大資料項目的資料科學家、資料分析師、資料庫管理者都會告訴你,項目的80%的時間和經費花在資料的準備工作上。這其中多源資料的融合是最耗費資源的任務之一。難怪最近紐約時報驚呼:“資料科學家把高達 80%的時間用于資料準備而不是用來發現新的商業智能”。

傳統的統計分析經常是對單一資料源(營銷資料、行政報表、問卷調查、人口普查等)進行深入的追蹤和分析。分析人員對資料的來源和結構有一定的控制和深層的了解。在大資料時代,資料源是多樣的、自然形成的、海量的資料常常是半結構或無結構的。這就要求資料科學家和分析師駕馭多樣、多源的資料,将它們梳理後進行挖掘和分析。在這個過程中,資料融合(data blending)就成為不可或缺的一步。

資料融合與資料倉庫(data warehouse)、資料一體化(data integration)不同。它的目的不是将一個企業(enterprise)或組織的所有資料集中在一起并标準化而産生唯一的真相(single truth)。它是以産生決策智能為目标将多種資料源中的相關資料提取、融合、梳理整合成一個分析資料集(analytic dataset)。這個分析資料集是個獨立的和靈活的實體,可随資料源的變化重組、調整和更新。資料融合勝于資料倉庫和資料一體化的另一點是它能包容多源資料。

資料融合有六個基本步驟:

連接配接所需多源資料庫并擷取相關資料

研究和了解所獲得的資料

梳理和清理資料

資料轉換和建立結構

資料組合

建立分析資料集

這個過程的每一步都需要資料工作者認真細緻的思考、辨認、測試、清理、最後産生可信賴、有意義的分析資料庫。在過去,這個資料準備過程很大程度上是通過手動,十分費時和艱辛。即使有資料處理的軟體(如excel, sas, spss等),每個資料工作者也都是自己使用所熟悉的工具,形成個性化的,充其量是半自動的資料準備程式。最近幾年,大資料技術公司将資料處理整合過程中相關技術集合,組合,提升後開發出專門用于資料融合的新工具。應用這些直覺、可視、高效的軟體工具,資料準備的過程的工效大大提高,在一定程度上解決了資料融合的技術瓶頸。

資料融合的另一瓶頸是思維。打個比方,資料融合就像水泥的現場合成。水泥制作可以從人工攪拌變為機械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相關化學成份的添加對達到水泥的品質标準至關重要。資料處理新工具使資料科學家從資料準備的繁瑣工作中解放了出來,但如何根據每個資料分析項目量體定制,融合多源資料以形成有效的分析資料集仍是資料科學家必須面對的一個更具挑戰性的瓶頸。

多源的資料可以歸納為三大類:

一手資料(primary data),包括企業或組織直接采集掌控的内部運作資料和營銷資料,

二級資料(secondary data),第三者采集、整理、和提供的二手資料,如經濟名額、人口普查、民意調查、網路資料等,

科學資料(scientific data),包括科學研究 的成果、指數、算法、模型等。

這三類資料為資料為驅動的智能決策提供了不同的觀察角度。一手資料具體、靈活、快速積累能夠實時或接近實時地為決策者提供監測、追蹤、描述資訊。二級資料一般是定期公布的資料,它能提供國家、地區、行業的狀況資訊,成為資料分析中的可比性坐标。科學資料的更新是不定時的,但它代表着目前科研成果,對資料分析的模組化和算法提供科學基礎。在大資料分析項目中,資料科學家需要針對具體研究課題同時收集、整理、融合相關的三類資料。資料科學家的水準就展現在将三類資料合理、有效、有意義的融合上。

資料融合是目前大資料應用和智能決策過程中一個瓶頸。這個挑戰引發了新一輪大資料工具的快速發展。根據2016年高德納公司資料管理和分析軟體工具的評估報告,自我服務式資料準備軟體(self-service data preparation)已成為發展最快的工具之一。這一發展趨勢應引起我們的關注。同時,資料融合的思維瓶頸仍是所有資料科學家必須面對的更高層次的挑戰。

本文作者:張小彥

來源:51cto