天天看點

非結構化資料怎麼治理?

非結構化資料怎麼治理?

編 輯:彭文華

彭友們好,我是老彭。最近遇到幾個項目,都跟非結構化資料脫不開關系。

老彭剛畢業的時候,做的是資料庫的活兒,那都是結構化資料。後來有了hadoop技術,可以用來處理物聯網、網際網路的半結構化資料。

真正做非結構化的場景還是比較少的,大多是在項目中選取一兩個點給意思意思一下。

但是現在已經發展這麼多年了,大多數企業結構化資料多少有些基礎了,非結構化資料治理還是一片空白。今天就唠唠這個話題~~

非結構化資料怎麼治理?

非結構化資料

這裡說的非結構化資料特指:

1、公文、研究報告等各種文檔

2、監控視訊等各種音視訊

3、設計圖等各種特殊檔案

這些東西想想就很費勁。與資料庫裡的結構化資料不一樣,這些資料的問題更嚴重。我們随便想想都能羅列幾個出來:

1、沒有統一存儲(各種附件,各種微信傳輸)

2、沒有統一标準(都是各自寫的檔案)

3、資料種類特别多(除了結構化的,都是非結構化、半結構化的)

4、法外之地,治理盲區(第一次知道處理非結構化資料的方法是TF/IDF詞頻統計,第一次知道非結構化應用是詞雲)

5、沒人管,不知道怎麼管(有檔案管理室、檔案管理者的企業非常非常少)

如果你原意,自己都還能再列個十條八條的。總之,這就是個巨坑!

非結構化資料怎麼治理?

非結構化資料治理​

其實按我說,絕大多數企業的非結構化資料還遠遠沒有具備“治理”的前期條件。

因為他們連資料都還沒準備好,全都散落在各個地方,你就說怎麼治?

對于結構化資料,我們知道要盤點,要做标準,要弄主資料,要梳理名額,要做品質控制。因為我們知道資料就在那幾個庫裡。

不管資料庫有多少個,表有多少張,我們知道,資料就在那裡。但是非結構化資料不一樣啊!鬼知道在哪裡!

有檔案管理室、知識中心的公司,還算好的,不管全不全,總歸有個集中的地方。

但是更多的,都是各自存儲:OA、郵箱、雲盤、個人存儲,到處都是!沒法弄!

是以,想要做非結構化資料治理,第一步是什麼?資料盤點嗎?資料彙聚嗎?

NONONONONO!

首先要做的,是對企業的非結構化資料的分布進行梳理,知道哪些是我們治理的重心才行!

非結構化資料怎麼治理?

你就說,這麼多各種非結構化資料,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些後治理?哪些對業務影響大?哪些對業務影響小?哪些價值大?哪些價值小?

這些問題都不搞清楚,就悶頭幹活,誰知道你幹了半天是不是有效的?

你可能會問了,那搞清楚了這些,是不是就該彙聚資料了?

NONONONONO!

還是不行。還是那句話,你得有一個牽引才行。一般來說,最好是應用牽引比較好。跟數倉建設邏輯一樣,自下而上建設見效快。

第一個項目,必須速勝!給所有人信心才行。否則遙遙無期,誰都受不了。

是以第二步應該是根據業務,拟定一個合适的應用,然後再快速收集部分資料,用NLP等技術将非結構化資料結構化,然後再利用資料庫、大資料、圖計算等技術處理資料,做出一兩個能看到效果的應用。

比如這個:

非結構化資料怎麼治理?

在報帳場景中,用OCR識别,用RPA進行發票驗真、資料校對,實作快速報帳、記賬。

這樣就能幫助哥們解放報帳的時間了:

非結構化資料怎麼治理?
非結構化資料怎麼治理?

小結​

非結構化資料管理很難,非常難,不管是技術還是管理,都比結構化資料難上N個量級。工作的方式方法也完全不一樣,需要慎重!一定要慎重啊!!!

​​

非結構化資料怎麼治理?

排版 | 老彭