非結構化資料怎麼治理？

編輯：彭文華

彭友們好，我是老彭。最近遇到幾個項目，都跟非結構化資料脫不開關系。

老彭剛畢業的時候，做的是資料庫的活兒，那都是結構化資料。後來有了hadoop技術，可以用來處理物聯網、網際網路的半結構化資料。

真正做非結構化的場景還是比較少的，大多是在項目中選取一兩個點給意思意思一下。

但是現在已經發展這麼多年了，大多數企業結構化資料多少有些基礎了，非結構化資料治理還是一片空白。今天就唠唠這個話題~~

非結構化資料

這裡說的非結構化資料特指：

1、公文、研究報告等各種文檔

2、監控視訊等各種音視訊

3、設計圖等各種特殊檔案

這些東西想想就很費勁。與資料庫裡的結構化資料不一樣，這些資料的問題更嚴重。我們随便想想都能羅列幾個出來：

1、沒有統一存儲（各種附件，各種微信傳輸）

2、沒有統一标準（都是各自寫的檔案）

3、資料種類特别多（除了結構化的，都是非結構化、半結構化的）

4、法外之地，治理盲區（第一次知道處理非結構化資料的方法是TF/IDF詞頻統計，第一次知道非結構化應用是詞雲）

5、沒人管，不知道怎麼管（有檔案管理室、檔案管理者的企業非常非常少）

如果你原意，自己都還能再列個十條八條的。總之，這就是個巨坑！

非結構化資料治理

其實按我說，絕大多數企業的非結構化資料還遠遠沒有具備“治理”的前期條件。

因為他們連資料都還沒準備好，全都散落在各個地方，你就說怎麼治？

對于結構化資料，我們知道要盤點，要做标準，要弄主資料，要梳理名額，要做品質控制。因為我們知道資料就在那幾個庫裡。

不管資料庫有多少個，表有多少張，我們知道，資料就在那裡。但是非結構化資料不一樣啊！鬼知道在哪裡！

有檔案管理室、知識中心的公司，還算好的，不管全不全，總歸有個集中的地方。

但是更多的，都是各自存儲：OA、郵箱、雲盤、個人存儲，到處都是！沒法弄！

是以，想要做非結構化資料治理，第一步是什麼？資料盤點嗎？資料彙聚嗎？

NONONONONO！

首先要做的，是對企業的非結構化資料的分布進行梳理，知道哪些是我們治理的重心才行！

你就說，這麼多各種非結構化資料，哪些多，哪些少？哪些重要，哪些次要？哪些先治理？哪些後治理？哪些對業務影響大？哪些對業務影響小？哪些價值大？哪些價值小？

這些問題都不搞清楚，就悶頭幹活，誰知道你幹了半天是不是有效的？

你可能會問了，那搞清楚了這些，是不是就該彙聚資料了？

NONONONONO！

還是不行。還是那句話，你得有一個牽引才行。一般來說，最好是應用牽引比較好。跟數倉建設邏輯一樣，自下而上建設見效快。

第一個項目，必須速勝！給所有人信心才行。否則遙遙無期，誰都受不了。

是以第二步應該是根據業務，拟定一個合适的應用，然後再快速收集部分資料，用NLP等技術将非結構化資料結構化，然後再利用資料庫、大資料、圖計算等技術處理資料，做出一兩個能看到效果的應用。

比如這個：