
編 輯:彭文華
彭友們好,我是老彭。最近遇到幾個項目,都跟非結構化資料脫不開關系。
老彭剛畢業的時候,做的是資料庫的活兒,那都是結構化資料。後來有了hadoop技術,可以用來處理物聯網、網際網路的半結構化資料。
真正做非結構化的場景還是比較少的,大多是在項目中選取一兩個點給意思意思一下。
但是現在已經發展這麼多年了,大多數企業結構化資料多少有些基礎了,非結構化資料治理還是一片空白。今天就唠唠這個話題~~
非結構化資料
這裡說的非結構化資料特指:
1、公文、研究報告等各種文檔
2、監控視訊等各種音視訊
3、設計圖等各種特殊檔案
這些東西想想就很費勁。與資料庫裡的結構化資料不一樣,這些資料的問題更嚴重。我們随便想想都能羅列幾個出來:
1、沒有統一存儲(各種附件,各種微信傳輸)
2、沒有統一标準(都是各自寫的檔案)
3、資料種類特别多(除了結構化的,都是非結構化、半結構化的)
4、法外之地,治理盲區(第一次知道處理非結構化資料的方法是TF/IDF詞頻統計,第一次知道非結構化應用是詞雲)
5、沒人管,不知道怎麼管(有檔案管理室、檔案管理者的企業非常非常少)
如果你原意,自己都還能再列個十條八條的。總之,這就是個巨坑!
非結構化資料治理
其實按我說,絕大多數企業的非結構化資料還遠遠沒有具備“治理”的前期條件。
因為他們連資料都還沒準備好,全都散落在各個地方,你就說怎麼治?
對于結構化資料,我們知道要盤點,要做标準,要弄主資料,要梳理名額,要做品質控制。因為我們知道資料就在那幾個庫裡。
不管資料庫有多少個,表有多少張,我們知道,資料就在那裡。但是非結構化資料不一樣啊!鬼知道在哪裡!
有檔案管理室、知識中心的公司,還算好的,不管全不全,總歸有個集中的地方。
但是更多的,都是各自存儲:OA、郵箱、雲盤、個人存儲,到處都是!沒法弄!
是以,想要做非結構化資料治理,第一步是什麼?資料盤點嗎?資料彙聚嗎?
NONONONONO!
首先要做的,是對企業的非結構化資料的分布進行梳理,知道哪些是我們治理的重心才行!
你就說,這麼多各種非結構化資料,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些後治理?哪些對業務影響大?哪些對業務影響小?哪些價值大?哪些價值小?
這些問題都不搞清楚,就悶頭幹活,誰知道你幹了半天是不是有效的?
你可能會問了,那搞清楚了這些,是不是就該彙聚資料了?
NONONONONO!
還是不行。還是那句話,你得有一個牽引才行。一般來說,最好是應用牽引比較好。跟數倉建設邏輯一樣,自下而上建設見效快。
第一個項目,必須速勝!給所有人信心才行。否則遙遙無期,誰都受不了。
是以第二步應該是根據業務,拟定一個合适的應用,然後再快速收集部分資料,用NLP等技術将非結構化資料結構化,然後再利用資料庫、大資料、圖計算等技術處理資料,做出一兩個能看到效果的應用。
比如這個:
在報帳場景中,用OCR識别,用RPA進行發票驗真、資料校對,實作快速報帳、記賬。
這樣就能幫助哥們解放報帳的時間了:
小結
非結構化資料管理很難,非常難,不管是技術還是管理,都比結構化資料難上N個量級。工作的方式方法也完全不一樣,需要慎重!一定要慎重啊!!!
排版 | 老彭