天天看點

資料治理的發展趨勢-面向人工智能

作者:AI自智體

ruby的資料漫談 Author ruby

ruby的資料漫談.

從事網際網路資料平台相關工作多年,也是一名資料産品人,聊聊資料平台、數字化轉型,資料治理,人工智能等話題,歡迎關注我的公衆号,一起成長。

資料治理的概念随着資料中台的普及,大部分人已經對資料治理非常熟悉了,那麼目前的資料治理大部分是面向結構化資料,也就是處理的是關系型資料庫的資料的資料治理,随着人工智能的發展,面向人工智能的多源異構資料的資料治理是目前資料治理發展的主要趨勢。随着數字化轉型的深入,資料治理需求普遍存在,非結構化資料成為價值挖掘的重難點。

1、資料正常的分類有哪些?

資料治理的發展趨勢-面向人工智能

由艾瑞咨詢對資料按照不同的次元進行分類,目前按照資料的格式,分為結構化資料、非結構化資料、半結構化資料。常見的結構化資料存儲在關系型資料庫,關系型資料庫包含常見的RDBMS,也包含多元資料庫和時态資料庫,而非結構資料和半結構資料則存儲在非關系型資料庫中,非關系型資料庫包含列式資料庫,空間資料庫,對象/多媒體資料庫,鍵值對,三元組存儲等。

2、資料治理包含哪些内容?

資料治理的發展趨勢-面向人工智能

資料治理主要包含資料标準管理、資料內建管理、資料資産管理、資料模型管理、主資料管理,資料安全管理,資料服務管理,資料品質管理等。各個功能子產品互相作用,共同提升資料品質。

3、資料治理發生了哪些變化?

資料治理的功能并沒有發生太多變化,主要變化是需要治理的資料類型和應用場景發生了變化:

1、非機構化資料和半結構化的資料的資料治理在目前的資料治理軟體中如何完成?

2、非結構化的資料和半結構化的資料主要的應用場景是AI模型的訓練,那麼這個應用場景中難度是實時性要求高,且處理難度大,如何能夠治理好,影響模型訓練的結果和推測的結果。

近年來,随着新技術模型出現、各行業應用場景價值打磨與海量資料積累下的産品效果提升,人工智能應用已從消費、網際網路等泛C端領域,向制造、能源、電力等傳統行業輻射。各行業企業在設計、采購、生産、管理、營銷等經濟生産活動主要環節的人工智能技術與應用成熟度在不斷提升,加速人工智能在各環節的落地覆寫,逐漸将其與主營業務相結合,以實作産業地位提高或經營效益優化,進一步擴大自身優勢。AI技術創新應用的大規模落地,帶動了大資料智能市場的蓬勃發展,同樣也為底層的資料治理服務注入了市場活力。

資料治理的發展趨勢-面向人工智能

4、人工智能發展的情況如何?

據艾瑞咨詢給出的資料,人工智能的發展正以20%左右的增速在發展,主要的應用行業是金融行業。

據艾瑞咨詢統計測算,2021年涵蓋大資料分析預測(機器學習/深度學習模型)、領域知識圖譜及NLP應用的大資料智能市場規模約為553億元,預計2026年市場規模将達到1456億元,2021-2026 CAGR=21.3%。随着市場大資料基礎的完善與資料需求的喚醒推動,大資料智能市場的規模将持續走高,但未來在行業理性建設與增量市場逐漸完善的大背景下,大資料智能市場增速會出現下降趨勢。從細分結構來看中,金融領域的資料價值率先得到釋放,市場規模占比高達32%。

資料治理的發展趨勢-面向人工智能

5、人工智能的落地對資料治理提出了哪些挑戰?

企業在部署AI應用時,資料資源的優劣極大程度決定了AI應用的落地效果。是以,為推進AI應用的高品質落地,開展針對性的資料治理工作為首要且必要的環節。而對于企業本身已搭建的傳統資料治理體系,目前多停留在對于結構性資料的治理優化,在資料品質、資料字段豐富度、資料分布和資料實時性等次元尚難滿足AI應用對資料的高品質要求。為保證AI應用的高質效落地,企業仍需進行面向人工智能應用的二次資料治理工作。

資料治理的發展趨勢-面向人工智能

AI 應用的資料對于資料治理提出的挑戰,主要展現現在

1、AI模型的接入是需要将關系型資料和非關系型資料同時接入AI模型。是以資料治理就需要相容多源異構資料

2、對于非結構化資料和半結構化資料的資料治理,和傳統的資料治理不一樣,對于非結構化資料的資料治理,主要展現在缺少值的補充,正确性的驗證,特征工程,标簽管理。且對于非結構化的資料治理同樣一般是需要接入AI模型進行資料治理,例如,文本分類算法、文本情感算法、智能打标簽算法,特征向量算法,文法校驗算法等等

3、對非結構化、半結構化資料的實時性要求高。一般AI智能應用的場景分為互動類型的,即人和AI模型的互動,給到平台延時極短,包括對資料清洗和AI模型推理的時間。

6、面向人工智能的資料治理該怎麼建設呢?

面向人工智能的資料治理是傳統資料治理體系在以AI應用落地為導向下的體系“更新”。從資料管理次元來看,在接入并處理分析半結構化資料、非結構化資料與流式資料的多源異構資料基礎上,面向人工智能的資料治理體系仍會根據資料結構化流向、資料資産管理需要、資料安全需求等角度順應搭建中繼資料管理、資料資産管理、主資料管理、資料生命周期管理和資料安全隐私管理等元件子產品。而在資料治理過程中,則會更強調底層實作多源資料融合、資料采集頻率、資料标準建立、資料品質管理,滿足AI模型所需資料的規模、品質和時效,以AI應用的資料需求為核心,優化對應子產品的體系建設。

資料治理的發展趨勢-面向人工智能

7、特征管理中台主要的功能子產品包含哪些?

資料治理的發展趨勢-面向人工智能

1、資料标準 接入半結構化和非結構化資料标準

2、資料預處理接入非機構化的品質處理

3、特征工程處理功能:特征抽取、特征構造、特征選擇,模型訓練,擷取到的可以被機器了解的結構化資料,并且能夠将該過程自動化,并且能夠自我學習。

8、面向人工智能的資料治理的市場規模是多少?

資料治理的發展趨勢-面向人工智能

從數智産業圈的參與立足點出發,艾瑞提取測算了大資料平台、資料中台、AI應用與資料治理服務的項目中與AI應用相關的資料治理市場規模并加總而得,2021年中國面向人工智能的資料治理市場規模約為40億元。受資料平台服務、資料治理服務和AI應用建設的需求推動影響,面向人工智能的資料治理市場規模将持續上升,2026年突破百億達105億元,2021-2026 CAGR=21.3%。2021年,中國資料治理市場規模約為121億元。作為資料服務的基礎工作,中國資料治理市場規模将保持上揚态勢,預計2026年市場規模達到294億元,2021-2026 CAGR=19.5%。從發展曲線來看,中國資料治理與面向人工智能的資料治理市場規模增長均處于良性區間,共同鞏固相關治理産業生态圈的向好形勢。

9、基于AI應用的資料治理主要爆發的行業是哪個行業?

AI應用蓬勃發展,銀行是主要需求方,随着數字化轉型的不斷深入,銀行金融機構中是對IT技術投入最高,并AI布局較早的主體。

資料治理的發展趨勢-面向人工智能

金融領域的AI應用多為業務導向型,即AI建設邏輯為應用落地先行,而AI應用面臨的資料品質問題日漸凸顯,一些銀行開始尋求建構面向人工智能的資料治理體系的解決之道。

總結一下,資料治理随着數字化轉型的深入,資料治理的資料範圍從結構型拓展到非結構化和半結構化,從普通的資料分析、BI分析,深入到AI智能應用。随着伴随的資料治理的功能也需要進行相應的調整。

繼續閱讀