天天看點

資料被污染後怎麼辦?

“理想情況是建立一套資料标準,然後把資料标準跟現在的IP做一個映射,實際情況一般都是先污染後治理。”

普元作為國内領先的軟體基礎平台與解決方案提供商,主要面向大中型企業、政府機構及軟體開發商提供SOA、大資料、雲計算三大領域的軟體基礎平台及解決方案。在本次大會上,普元資訊CTO焦烈焱發表了題為“數字經濟時代的智能化大資料治理”的演講。CSDN記者就“智能化、自服務大資料治理”和焦總進行了互動探讨。

資料被污染後怎麼辦?

普元焦烈焱與CSDN記者合影

今天,很多企業裡都在問大資料廠商,你們到底有什麼資料,這些資料到底能幫我産生什麼樣的價值,大家都在問這個問題,就是最好的事情。大資料這十年發生了比較大的變化,最重要的一點,就是大資料這件事已經深入人心。從管理者到各方各面的人,大家都被普及了大資料的技術理念,也知道要用大資料的方式來解決自身問題。

大資料時代,企業如何轉型?

焦烈焱表示,以前做IT,客戶更多的是從内部管理的角度來解決問題;現在是資料化的時代,不僅僅是管理,合作夥伴、IOT物聯網裝置都會發揮巨大的作用。在這樣一個大資料的時代,誰能夠建立起數字化企業的這個技術的平台,誰就能夠更好的支撐自己的業務的前景。

智能化大資料治理,實際上是數字化平台的一部分。企業隻有把資料治理資料管理做好了,才可以讓資料發揮更大的價值。現在,每家企業的資料特别多,擁有幾百套系統,上千張報表的傳統企業不在少數。他們的IT系統每天還增加着大量的資料,企業如何知道我有哪些資料,有了這個資料之後怎麼拿得到,之後如何發揮價值,大資料治理就是要解決這方面的問題。

普元正在建設數字化企業雲平台ThePlatform,通過資料治理的手段,讓企業使用者找到資料,合理利用資料。

“智能”的資料治理

筆者最初是在普元PWorld技術大會聽到的大資料治理、中繼資料等概念,其實,CSDN作為技術社群在活動組織過程中也會遇到資料不标準的,需要清洗的問題。對此,焦烈焱解釋,像CSDN這樣一個單點來說,拿到一些資料後可能有一些髒資料,資料不準确,但通過人力總能把這個東西做好。但是,如果傳統大型企業面臨這種問題,企業系統多、體量大,很多企業就覺得吃不消了。傳統的資料治理,更多的如何建立資料管理的流程、組織機構,但是這種方法的自動化、智能化的程度不高、投入大;普元講的智能化治理,是用大資料的技術手段,把使用者效率、自動化程度提升起來,進而建立資料标準、資料模型,并把資料和業務關聯起來。

資料治理的理想與現實

針對大資料問題,企業大多不是用技術語言來索要的,都是通過業務的語言。焦烈焱首先舉了一個金融行業的例子——賬戶餘額。這個詞大家好像都聽得懂,但在銀行的業務領域,賬戶餘額其實有很多的類型和分類。但這是銀行業務的定義,IT系統裡存的賬戶餘額資料從技術的角度如何劃分,銀行客戶就不一定非常清楚了。不同業務的技術了解不同,銀行很多的資料都是不一緻的,這可能造成監管報送時資料無法比對。“普元現在面臨的主要困難,就是把這些資料合理的組織起來,然後讓客戶的業務和技術,能做相對準确的映射。”

再比如使用者畫像,它也是資料治理的一個成果。客戶統計口徑統一、描述次元的準确、資訊項的清晰後,就可以通過畫像把資料收集起來。後期,客戶想要增加一個次元,普元就需要對這個次元進行改變,這些都是資料治理要解決的問題。

“理想情況是建立一套資料标準,然後把資料标準跟現在的IP做一個映射,實際的情況一般都是先污染後治理。”

現在,普元針對客戶現有的資料架構進行梳理,從映射資料做标準化的轉化和限制,清理出這個資料。焦烈焱表示,普中繼資料治理的最終目标,是把資料變成服務,提供給使用者,幫企業建立一個資料統一的工作環境。“在這個環境裡,客戶能找到資料,要到資料,然後能使用資料,大幅簡化傳統資料治理的工作量。”

大資料人才

對于大資料人才的挑選,焦烈焱比較關注兩點。

第一,偏人工智能方向,希望尋找具備包括深度學習、傳統的統計學、知識圖譜,知識工程方面的綜合型人才。“對我們來說沒有必要去單獨做算法研究,目前的算法對我們來說夠用了,足夠了”。普元會用現有的一些成熟算法,根據現有業務上遇到的問題,總結出一些新的模型出來。

第二,他比較關注人才在行業裡業務是否熟悉,是否能用現有技術知識跟客戶的需求對接起來。

最後,焦烈焱對CSDN的社群工作也提出了表揚,“現在CSDN的教育訓練業做的很好,大家都在學大資料、統計學、算法的相關知識了,這是很重要的。把這些技術理念灌輸到人們日常生活當中,是很重要的事情。希望未來普元能與CSDN一同将技術理念、實踐經驗輸出到社群平台中,幫助到更多的開發人員積累技術知識。”

後記

大資料技術通過10年的時間,從概念落地到行業,讓大家明白這個技術可以幫助人們在自身業務裡做一些實際的事情。普元作為一線的IT服務商,從産業的角度給我們分享了大資料和方面的話題,這對緻力于該領域學習、研究的CSDN讀者來說,有很好的實踐意義可以借鑒。

繼續閱讀