天天看點

【華為雲技術分享】如何處理暗資料?

有研究表明,全球資料總量每兩年翻一番,各企業都在處理和存儲這些海量資料。這些資料主要由結構化資料、非結構化資料等類型資料構成。企業對資料了解得越透徹,就能夠越準确地判斷資料的價值及風險。

結構化的資料:即有固定格式和有限長度的資料。例如填的表格就是結構化的資料,國籍:中華人民共和國,民族:漢,性别:男,這都叫結構化資料。對于ICT領域來說,就是以固定的格式存儲到資料庫裡的資料(Oracle/MySQL/…)。

半結構化資料:是一些 XML 或者 HTML 的格式的,當根據需要可按結構化資料來處理,也可抽取出純文字按非結構化資料來處理。

非結構化的資料:就是不定長、無固定格式的資料,例如網頁,郵件,有時候非常長;有時候非常短,幾句話就沒了;例如Word文檔、語音,視訊、圖檔都是非結構化的資料。現在非結構化的資料居多。

為了描述友善,我們把半結構化資料和非結構化資料,合二為一統稱為“暗資料”,當然這個詞不是我起的,是AA公司起的名字。AA(Automation Anywhere)公司于2003年最初由Ankur Kothari,Mihir Shukla,Neeti Mehta和Rushabh Parmani在加利福尼亞州聖何塞的Tethys Solutions,LLC成立。該軟體公司在10多個國家/地區開展業務,開發适用于領先金融服務,業務流程外包,醫療保健,技術和保險公司的機器人過程自動化技術的産品。在RPA領域市場佔有率第一,全球最大的RPA生态,教育訓練并認證超過10,000名RPA人員。

AA公司統計“暗資料”占比達80%,就像下圖冰山在水下的部分。這些暗資料,導緻資訊是斷裂的,傳統的自動化不能通路。業界最頭疼的就是如何處理這部分資料?

一、傳統處理暗資料的方法

目前傳統的公司,在處理暗資料的時候,采用的是笨辦法,想辦法把非結構化的資料轉換成結構化資料。或者幹脆,大部分公司是讓這些暗資料躺在資料湖裡沉睡中,沒有任何用處,反而還浪費了存儲和維護資源。像我們的站點資料、裝置資料、網絡資料、操作資料,大部分都是暗資料。我們現在花大力氣在想辦法結構化,這可能是最笨的辦法。費時費力,結果還很差。

【華為雲技術分享】如何處理暗資料?

二、利用AI處理暗資料的新方法

其實單純的RPA做的工作非常有限,RPA主要是處理結構化和流程化的資料,不能處理“暗資料”。利用AI技術,就可以處理圖檔、郵件等暗資料,同時AI還可以随機應變的處理一些突發的流程。

下面列舉了AI和RPA的差異點:

RPA處理資料的類型和能力範圍 AI處理資料的類型和能力範圍
模仿使用者的活動 模仿人類思維過程,視覺,語言和模式識别
可以處理結構化和一些半結構化資料 可以處理結構化,半結構化,和非結構化資料
基于規則的自動化 可以通過“學習”改變其行為動作(随機應變能力)
高度确定性 通過機率計算,使其具有确定性
代理協助或數字勞動模型 點解決方案 - 不是廣泛的能力(窄AI)

AA這家公司把AI和RPA結合起來,處理暗資料。使用的關鍵技術如下:

【華為雲技術分享】如何處理暗資料?

1、語音識别:主要處理對話、錄音、音頻等檔案。

2、NLP:主要處理文本、郵件、文檔等檔案。

3、計算視覺:主要處理圖檔、PDF中嵌入的圖檔等資訊。

4、機器學習&深度學習:主要通過“學習”,處理一些異常事件,讓流程能正常流轉,像人一樣,能靈活處理問題。

三、AA這家公司推出的關鍵産品(或解決方案)

推出了IQ-Bot的解決方案。IQ Bot™是人工智能(AI)解決方案,業務使用者可以輕松設定和使用,以更快地自動讀取和處理各種複雜的文檔和電子郵件。另外,IQ Bot通過建構的自動化認知,可與IBM Watson/Google Cloud AI/MS Cognitive Service等AI解決方案內建,以彌合RPA與純認知平台之間的差距。

在其首頁上呈現的IQ BOT解決方案的示例如圖,重點是想說明IQ Bot是一座橋梁,可以連接配接RPA和認知平台:

【華為雲技術分享】如何處理暗資料?

使用IQ-Bot前後對比

【華為雲技術分享】如何處理暗資料?

AI能夠以内容為中心實作流程自動化,使AI成為理想的RPA的補充技術。 使用兩者的組合,組織可以端到端自動化流程,例如使用AI,解析,分類和了解語義或情緒,并将所需的行動傳遞給RPA。 例如:完成使用AI為客戶撰寫确認函/文本或電子郵件等案例。

四、如何把AI嵌入到前台的RPA流程中去?

1、許多流程需要了解語義。利用AI中的NLP技術了解句子的結構,語義和意圖。

通過統計方法和機器學習。NLP将文本轉換為資料,反之亦然,允許人與人之間有意義的互動。它包括自然語言了解和生成,例如:保險公司處理索賠、銀行抵押貸款,這些都需要補充材料,包括圖檔(身份證資訊)、表格資訊、郵件資訊、文本資訊等等,這些都是非結構化資訊,很難直接使用RPA自動化,影響了這個流程的效率。文本,電子郵件,信件和圖像,首先通過NLP和圖像識别技術以便進一步處理。

2、利用計算機視覺技術自動提取,分析圖檔,轉換成語義。

從單個圖像或一系列圖像(包括掃描文檔)中了解有用資訊,實作自動視覺了解。

3、通過ML(Machine Learning)來實作一些靈活化處理問題的能力。

通過算法來實作人處理問題的靈活性,無需明确固定的流程,可以通過“學習”來靈活處理,具備随機應變的處理機制,避免通過系統對接傳遞大量資料。

五、AI方法的借鑒意義?

這多年過去了,整個電信業界就沒有搞定網絡拓撲,特别是跨域和跨廠商的。我一直認為,通過采集上來的現有公開資料(不同廠商肯定有網管系統),通過資料的拼接,是可以拼出一個拓撲的。大家覺得不可能。其實想想Google地圖,看看Google地圖是怎麼做到的?地圖需要拼接的資料量肯定是網絡資訊的很多倍,難度也大于網絡拓撲,但為什麼地圖能搞出來,而一個拓撲就搞不出來呢?利用資料的拼接+AI技術,是可以把整網跨廠商的網絡拓撲拼接出來的。

六、 給大家介紹的IQ Bot的目的是打開一扇窗,讓大家去尋寶

IQ Bot:認知自動化機器人,是專門負責處理暗資料,IQ Bot發現和轉換隐藏資料,以更快,更高效地自動化業務流程,同時消除人為錯誤。

在這個AI時代,如何讓手裡的資料發揮出價值成為在市場中殺出重圍的重要的技能。企業面對内部大量的暗資料,需要建立高效的資料管理體系,學會妥善運用算法、簡化流程,才能迎接這資料洪流時代。

【華為雲技術分享】如何處理暗資料?

來自公衆号:網絡人工智能園地   作者:高亮

【華為雲技術分享】如何處理暗資料?