天天看點

資料品質在數字經濟發展的意義

本文根據譚海華先生在【2020第二十四屆軟博會之“資料治理與流通高峰論壇暨全國DCMM現場工作會”】現場演講内容整理而成。
資料品質在數字經濟發展的意義

演講嘉賓介紹 - 譚海華

  • 華矩科技創始人及董事長 CEO
  • 中國管理科學研究院創新所大資料共享技術委員會主任及學術委員
  • 資料品質國際峰會 DQMIS的發起人及執行負責人
  • 資料共享聯盟-數享彙創始人
  • 國家發改委教育訓練中心特聘大資料專家講師
  • 工業大資料應用技術國家工程實驗室《工業企業大資料治理實踐指南》編委會成員
  • 中國保信《保險大資料》、《中國保險報》、中保信特約撰稿人,是中保信特聘技術專家
  • 中國電子技術标準化研究院等創辦的資料标準化與治理專家庫首批成員
  • 廣州市工業和資訊化委員會大資料及人工智能專家團首批入庫專家成員
  • 曾任職IBM、埃森哲咨詢、微軟,緻力企業管理咨詢、資訊化建設、大資料治理及相關行業資訊化解決方案研究和實施

    - 作為埃森哲資深顧問參與管理及實施國内最早一批的大型企業資料治理項目

    - 作為IBM資深顧問及SIC項目負責人參與實施華為IPD咨詢項目

    - 作為IBM資深顧問參與管理及實施國内金融業最早一批的資料倉庫項目策劃

我首先解釋一下,為什麼選用這個題目。在整個大資料裡,資料品質的意義毋庸置疑,為什麼拿資料品質來談?有以下兩個角度:

  1. 資料治理的目的是為了提升資料品質,但是過往我們提到的資料品質可以說是站在背後,是以今天我想這個分享的主題是想看一下資料品質在整個數字經濟中是怎樣直接發生關系的;
  2. 資料品質是直接和經濟挂鈎的,資料作為生産力的一個要素,那麼資料品質如何展現在我們的生産力方面,包括如何擴大經濟、增加收入等。
資料品質在數字經濟發展的意義

上圖是信通院在2005-2019年的報告,顯示了數字經濟在整個GDP的成長過程。什麼叫數字經濟?這份報告中提到了幾個層面:數字産業化、産業數字化、數字化治理以及數字價值化。那麼數字經濟怎麼樣才能夠展現在資料要素裡呢?

資料品質在數字經濟發展的意義

這裡有四個闆塊,說明了數字經濟可能涉及的地方:資料治理、品質大資料的問題、大資料産業的問題、數字經濟。泛義的數字經濟包括網際網路經濟、共享經濟等等,這些都是數字經濟。到2022年,中國數字經濟規模預估會超過60萬億。

資料品質在數字經濟發展的意義

在這個數字經濟裡,資料究竟扮演什麼角色呢?回顧一下在整個經濟發展裡可能面臨的問題。在另外一張圖中可以更清楚地看到幾個問題,首先講為什麼資料品質和數字經濟有直接關聯,這當中有兩個觀點和大家分享。我們談的資料品質是什麼?在2018年的全球資料管理論壇上有位專家提到,資料品質并不是真正資料的問題,其實更多的是業務規則問題,是以大家在處理資料品質的時候,業務規則是最重要的部分。

資料品質在數字經濟發展的意義

現在我們談資料品質,其實有幾大塊,包括資料、資訊語義、業務規則,但很多時候大家隻看到資料本身的問題,其實更多還是資料語義的問題,以及業務規則問題。剛才前面幾位嘉賓也提到了,我們要怎樣保證資料定義的一緻性、保證業務體驗的一緻性?在講資料品質問題的時候,這些是不容易衡量的。

再看一下,資料品質是怎樣影響到整個數字經濟的?

資料品質在數字經濟發展的意義

首先,在資料治理中,資料品質未來是一個很大的市場。大資料應用為什麼需要考慮到資料治理的問題?就是因為資料品質問題是由大資料應用産生所緻,現在才回過頭來看資料治理的問題;接着是人工智能,這裡面包括資料算法、算力,後面會有幾個例子說明在這個行業中是如何受到資料品質的影響;最後是現在比較熱門的物聯網。這就是資料品質在這幾個領域裡的影響力。

資料品質在數字經濟發展的意義

這張是關于AI的,左邊說明了有關IBM沃森的失敗,那麼為什麼它會失敗?我不知道大家有沒有研究過,華矩科技在這個問題上寫過一篇論文,是對IBM沃森為什麼現在不存在的分析,可以說這也是人工智能的一個挫敗案例。沃森在中國剛開始的時候,最早落地在天津人民醫院。人工智能取決于提供的資料品質,假如說資料品質不行,AI這個行業的發展就會受到很大的影響。IBM的沃森當時和癌症中心的合作,其實它最大的投入是在病例資料的整理,但是最後都沒有辦法實作最終的算法訓練,是以導緻失敗。上圖中可以看到,高品質的資料如何讓算法更加精準,當然這裡講的是一個風控的算法,但核心意思在于:人工智能的發展中離不開高品質的資料,否則這個行業會受到非常大的影響。現在也有無人汽車駕駛、臉部識别、語音識别以及非結構化的做法,其實這些都需要大量的高品質資料去訓練這個算法的。

資料品質在數字經濟發展的意義

第二個例子,流通要素與資料資産評估,大資料為什麼能成為生産要素?首先是能夠定價,雖然現在國内已經有很多大資料交易市場,但它們都是如何運轉下去的呢?在今年華矩科技舉辦的資料品質管理國際峰會上,我們請到了工信部的前部長,他提出一個問題:目前行業沒有辦法對資料進行定價,而且這是一個極其難的問題。也就是說如何對資料進行定價成為非常重要的問題。其中資料品質是一個很關鍵的次元,這個次元的規範化沒有實作,資料定價的問題就永遠沒有辦法繞過去,這是其中的一點。在資料資産估值中,會看兩方面的問題,左邊是資料分析能力,右邊是資料量和資料品質,這也間接論證了剛才提到的人工智能的發展。人工智能的發展取決于資料分析的能力,但是資料分析的能力,往往是在資料量和資料品質方面上不去,導緻中間的軸線也會上不去,這也是在做資料資産評判時的一個關鍵要素。

資料品質在數字經濟發展的意義

上圖是今日分享的第三個點:資料品質驅動業務創新。我們希望資料品質不僅僅是給AI保駕護航,以及資料資産定價。我們更希望它能夠帶來新的業态創新,這才是我們現在所講的大資料價值。在這裡分享幾個案例,重點解釋如何通過資料治理來實作類似業務在原有品質下得到升華。為什麼挑了這四個案例呢?因為分别代表着不同的行業,前面兩個可能更像是供應鍊的管理,後面是IoT,說明如何通過IoT的資料來進行煙感器的分析,最後一個是金融的。

資料品質在數字經濟發展的意義

上圖是有關供應鍊優化的問題,圖上有好多場景。剛剛清華的張老師也提到,資料治理是要有目标的,以目标來推動資料治理的方向,這是很重要的一點。這裡面有四個場景,都是華矩的客戶提供的,包括為什麼要做契合度及不同角度的分析,其實就是因為資料品質不行,是以才需要去提升資料品質。當然,這裡面的例子是說通過精準的資料找到供應商和建立供應商的信用。剛才華為的同僚有提到,我們怎樣尋找供應鍊裡合适的供應商?那這裡面有一個很關鍵的問題,假如說在你的産品資料不唯一的時候,你可能沒有辦法找到你所需要的供應商。在資料分析裡,可能根本沒有納入到分析的目标資料,這是一個場景。

資料品質在數字經濟發展的意義

上圖的案例是關于集采比價系統,說明如果沒有建立“快省準”的資料品質優化技術,很多事情就需要耗費大量人力與成本,相信很多企業都會面臨這樣的困境,這是一個通用性的問題。這裡的例子都是說明如何通過自動化技術實作規則標明,包括不同的品牌如何標明,哪類是标品?以及如何通過系統來實作這樣的問題?等等。當然,這其中資料品質是核心技術。

資料品質在數字經濟發展的意義

第三個案例是做債券評估的體系,這個體系裡有一個很重要的技術,就是債券的統一視圖,假如說沒有辦法做統一視圖的精準化,精準評價是沒有辦法實作的。

資料品質在數字經濟發展的意義

第四個案例,這也是非常有意思的案例,大家可能不知道煙感器,我們也是通過做項目之後,才知道煙感器有一個名額,就是誤報率是高還是低。但是誤報率有時候實體的屬性是解決不了問題的,因為這和傳感器的敏感度有關系,和材料及裝置有關。但是可以通過大資料分析,包括對一些妨礙判斷的資料甄别,并修正有關資料品質所導緻的問題,降低誤報率。

最後,我介紹一下華矩科技。華矩科技是專注于資料品質領域的一家企業。在這個領域裡,我們有幾個追求,也是我們的定位:第一,安全可靠。第二,快捷。我想大家在做資料的時候,其中快捷是非常重要的,因為資料的使用是有視窗時間的,如果不考慮視窗時間去讨論資料的架構和實作是沒有意義的,這點很重要,因為時間不等人,必須要有快捷的技術。第三,便利。我們要讓業務人員能透過資料和技術人員進行對話,這也是做資料的一個非常重要的環節。假如說業務人員和技術人員沒有辦法進行有效的交流,是沒有辦法讓資料的效能發揮出來的。第四,智能。剛才講到了的好多方法,包括一些要求,其中有一點,大家在做資料品質時如何去發現規則?如果都是用人工去發現規則,那麼這個視窗時間是永遠上不去的,是以需要有智能,智能要靠自動化技術來發現規律和規則,這是資料品質非常重要的環節。第五,低成本。大家在做資料治理的時候,有一個非常重要的追求目标,就是如何能夠降低成本,這也是最重要的一點,否則你的立項不會被準許,你的項目也沒有辦法成功。

在這裡,非常高興能夠和各位分享華矩科技過往在資料品質方面的探索,也歡迎各位有機會可以多多交流,謝謝各位!

繼續閱讀