天天看點

關于人工智能在資料品質管理中的應用

說實在的,人工智能這個概念有些過于高大上,從大的方面包括深度學習、機器學習、強化學習等等,而深度學習又包括圖像識别、語音識别、自然語言處理、預測分析;機器學習則包括監督學習、無監督學習、半監督學習,監督學習又細分為回歸、分類、決策樹等等。理論上人工智能什麼都能做,什麼都能迎合的上。

關鍵資料品質管理實在太接地氣了,以至于大家都了解為資料品質檢查規則定義、資料品質檢查規則腳本、檢查規則執行引擎、資料品質檢查規則執行情況監控,資料品質檢查報告;而資料品質校驗規則無非就是一緻性、準确性、唯一性、真實性、及時性、關聯性、完整性的一堆校驗,再大白話一些無非就是SQL語句。

而本人面臨的還不是基于資料倉庫的資料品質管理,資料倉庫是一個面向主題的、內建的、相對穩定的、反映曆史變化的資料集合,用于支援管理決策,資料倉庫的內建性和面向主題兩個特性決定了資料是有天然血緣關系的,血緣關系的存在是資料品質追溯的前提,能夠抽絲剝繭一層層梳理,簡而言之,目的性就是為了保障端到端的資料準确性。

剛入職電信營運商的時候,主要負責經營分析系統的流量業務和資料業務,初步統計過經分系統有七八千張表、幾千個存儲過程,從接口層到存儲層到中間表再到彙總層再到報表層,設計上倒也很合理,在不懂業務的情況下,為了快速上手,曾經花了3個月時間去閱讀一百來張中間表的數百個存儲過程,形成了幾份人肉血緣關系文檔,再過一年基本就可以設計資料模型了,這是個笨方法,但也是最快速的辦法。

入職新公司後,每年推陳出新一大堆新概念,但基本上落地的很少,資料中心、數字平台、資料平台、資料中台、資料湖、物聯網、人工智能平台,雲化重構,昨天閱讀到一篇文章,說資料湖就是懶人資料倉庫,公司非常想挖掘現有和曆史的業務資料,但是還沒有詳細的規劃如何分析。是以需要先儲存資料,在考慮以後的分析,畢竟對于很多公司來說,資料就是巨大的資産。畢竟資料湖既新潮又解決不了實際問題,而且hadoop、mpp既廉價容量又大,關鍵是規避了資料品質和企業資料模型,我想大概就是這個原因吧。

本人要面臨的是什麼呢,一大堆業務系統,一些半集中化的報表系統,ETL工具五花八門,有ETL工具,有DBLink抽取的,有ogg同步的,業務系統之間靠主資料和SOA進行資料協作,就像任何早期系統一樣,初衷設計是好的,實際落地都會大打折扣,于是出現了資料品質問題,資料品質問題又分解為技術問題和資料問題,技術問題當然是追究系統建設的原因了,當然也無法追究,畢竟上線那麼多年了,資料問題要追究業務部門錄入人員和使用人員的責任,就涉及到資料認責,資料認責又牽涉到各方利益,是以巴拉巴拉的。

但是工作還得做啊,盡人事聽天命嘛,個人認為資料品質問題短期内解決資料同源問題,長期目标是為了解決企業資料模型問題,畢竟資料品質核查過程是了解資料的過程,了解資料的過程就是不斷熟悉業務的過程,熟悉業務自然就會站在業務人員的角度去考慮企業資料模型問題。

前面是講了資料品質問題的目标,當然要資料品質問題不可避免要涉及到制度機制、平台工具、營運團隊。

一、基于資料管理能力成熟度和公司資料管理過程中的問題制定一系列實際可操作可落地的資料管理制度。

    二、關于資料認責,要基于業務場景開展嘗試,而不是胡子眉毛一把抓

    三、建立一套綜合資料品質平台,為資料品質提供自動、自助、智能化的平台支撐,資料還是要集中的,不集中什麼都治不了

    四、搭建一套資料閉環管理流程,自下而上收集問題處理問題

    五、有一套資料治理組織架構,這個一般雷聲大雨點小,那就從自我做起吧,一個資料營運團隊和相關分工還是要的。
           

搞到最後,還是少不了錢,有錢不是萬能的,沒錢是萬萬不能的,制度、平台、團隊都是靠錢的。

前面講了一堆資料品質的事情,怎麼解決人工智能的問題呢?其實也借鑒了一些網上的部分,當然自己也反複思考,為了工作夜不能寐。

資料品質的問題主要發生在源端、傳輸過程和目标端,這話說起來容易,實施起來難,幾萬張表上百萬字段估計一輩子耗進去都脫身不出來,怎麼辦,靠人工智能和專家經驗。

一、确定資料品質範圍

1、基于表熱度分析、引用對象分析、血緣關系分析,選擇一些重要的<a rel="dofollow" href="https://www.fgba.net/" title="QQ拍賣平台"><span style="color:rgba(38,38,38,1);">QQ拍賣平台</span></a>表和資料項進行資料品質核查,再跟業務部門進行确認,一般來說大差不差。
 2、那些基本沒啥人用的表或沒資料的表,可以無視了。
 3、本來想基于自然語言處理的文本相似度計算資料庫表相似度比對,判斷表之間是否高度重複,相似度高的也可以做排除法,結果一條SQL就能搞定了,又和人工智能沒啥關系了。
           

二、資料品質檢查規則

1、針對少量核心檢查規則,從大資料中選取訓練資料樣本,利用機器學習算法進行深度分析,提取公共特征和模型,可以用來定位資料品質原因,進行資料品質問題的預測,并進一步形成知識庫,進而增強資料品質管理能力。說實在的這個有點虛,啥規則都沒有能挖掘個屁出來。
 2、基于正态分布、長尾分布的資料品質監控,通過機器學習訓練,确定資料門檻值,判斷資料是否為異常資料,可做事前研判、事後監控,針對資料品質;當然這個範圍極其有限。
 3、更多的還是自動生成SQL腳本好了,當然是最簡單的規則了,最不濟的是靠人肉閱讀代碼生成校驗規則。           

三、資料模型管理

1、過機器學習技術分析資料庫中資料實體的引用熱度,通過聚類算法自動識别資料模型間的内在關系,同時也可對資料模型品質的檢測和評估,這個是抄的,不過和我寫的有點類似。
 2、基于知識圖譜的中繼資料管理-進行資料鍊路、血緣關系分析,進行應用場景聚合。           

四、資料傳輸監控

1、利用機器學習技術對資料曆史到位情況分析,預測資料的到位時間,為保證資料處理的及時性和應對資料晚到的影響提供支撐。這個适合在資料倉庫中。
 2、我面臨的問題有些複雜,暫時還沒想好。           

五、資料問題發現

就是定位在具體的非值域資料環節,例如身份證、位址、機關名稱、有規則的業務編号上進行詞性、句式、語義分析,增強資料品質和資料安全管理能力。           

能想到的暫時就這些了,人工智能可以在資料品質管理的小部分範圍内發揮作用,但更多的還是靠人和人肉代碼吧