天天看點

蘋果剛剛收購了暗資料分析公司LATTICE DATA,葫蘆裡賣的什麼藥?

蘋果剛剛收購了暗資料分析公司LATTICE DATA,葫蘆裡賣的什麼藥?

不過暗資料有哪些價值、lattice的技術有何特别之處、蘋果此舉又是出于怎樣打算,很多小夥伴應該還不是很清楚,請看下文分析。

lattice公司的技術要處理的對象是“暗資料”。業内把它稱作“暗資料”(dark data),是因為這些資料很難直接使用。它們可能是雜亂的、多種格式共存的、進行了記錄但是沒有派上用場的、進行分析整合總結之前的、或者根本沒有明确目的性。

總體情況而言,目前各家企業群組織收集的所有資料中,能夠直接進行結構化分析或者大資料分析的資料比例其實很小。根據idc的調查資料,90%的非結構化資料都從未被分析過。多數情況下企業覺得許多類型的資料都有直接價值或者潛在價值,是以花費資金人力進行了長期收集,比如收集使用者使用自家産品的資訊、統計内部軟體開發進度、統計網站通路資訊等等;典型的暗資料還比如,公司中存儲的客戶資料、伺服器的日志檔案、離職員工的資訊、問卷調查的原始資料、按周期的财務狀況表、曆史郵件資料、公開的賬戶資訊、工作産生的記事本備忘錄ppt、工作報表文檔的早期版本等等。

除了直覺上覺得“收集了資料就肯定有價值”之外,我們對暗資料的價值是否有理性的系統化認識呢?現在對它價值的認識主要有兩種觀點,一種觀點基于正面價值,認為不對這些資料進行分析,就沒法發現其中有些重要但尚未被人注意過的機會;另一種觀點基于負面價值,如果這些未經分析的資料處理不當,可能會有法律和安全方面的許多問題。

正面價值的角度,企業有很大的機會可以通過暗資料獲得發展業務的機會,比如:伺服器的日志檔案中可以讀出網站通路者的行為;客戶通話錄音可以揭示客戶的态度和感情;移動裝置帶來的位置資料可以提供通路模式。如果一家企業不對這些暗資料進行分析,那簡直就是把機會白白丢掉了。不過同樣地,企業也需要有更好的流程、協調和技術才能夠正确地運用暗資料。

負面價值的角度,企業很可能記錄了法律不允許記錄的資料,一旦揭露出來會有很大麻煩;收集的企業内部資訊可能洩露商業機密;如果丢失了使用者資料,将會降低公司信譽;如果手握類似的使用者資料,a公司沒有進行分析,但是競争對手b進行了分析,那麼b就很有可能在接下來的競争中取得優勢。

确定了暗資料的價值以後,就可以考慮規劃行動了。但已經行動的企業很少。這是為什麼呢?

主要原因有這三個:

1,收集資料時候優先級太單一。比如一個信用卡的市場團隊隻關心客戶的資訊和信譽度,那麼它會記錄客戶在網上申請頁面上填寫的資訊,但是不關心客戶是如何來到這個申請頁面的、客戶對頁面易用性的感受又如何。那麼當客戶整個申請流程的資料都記錄下來後,能夠有人願意分析利用的隻是其中很小的一部分。

2,技術和工具的限制。如果同一家企業群組織的資料收集是用不同的技術和工具進行的,那就有可能出現由于技術限制導緻這些技術和工具之間沒法互動的情況。這樣一來資料就沒辦法全部聯系在一起,展現出完整的狀況。這件事情尤其容易發生在那些有多個it系統和資料格式的公司身上。比如,想把呼叫中心的語音錄音和網站上的浏覽點選資料整合在一起就很難。資料分析項目還處在比較早期階段的公司就會有這樣的問題。

3,資料難以結構化。不同裝置的通路曆史、社交網絡上的文章和下面的評論、曆史郵件資料等資料,雖然整理到便于查詢的格式需要花一點功夫,但好歹還是普通文本;有不少情況下資料是在doc、xls、ppt、pdf文檔和各種圖檔裡面的,那這樣的資料要如何提取、如何結構化呢,别忘了表格裡的資料要保持着表格的結構才能産生意義,而圖檔資訊的提取單獨拿出來都是一件大事。

lattice公司的前身deepdive是斯坦福大學的一項研究項目,計算機科學教授克裡斯·雷(chris re)和密歇根大學計算機科學教授邁克爾·卡法雷拉(michael cafarella)共同帶領團隊進行研發,不僅成果客觀,還獲得過許多企業和機構的支援。

他們和核心競争力是資料分析處理技術,采用深度學習的方案并大大提高了可用性,可以進行訓練、推理和預測,最大的亮點是能夠從非結構化的資料(如一般的工作文檔和圖檔)整理出結構化資料(如sql資料庫),并且可以把這些資料合并到現有資料庫以拓展整個分析結果的深度廣度。他們的技術有很多吸引人的特點:

入門成本低,使用者隻需要考慮資料特征而不考慮算法 科學領域内,資訊提取準确度比人類更高 可以适應資料的噪音和不準确性 可以從多種資料格式提取資訊,包括網頁、pdf、圖像、表格等等 使用者可以非常簡單地給與回報和設定規則以提到特定領域内預測的準确度 早期模型無需訓練就可以開始工作 高性能可拓展

蘋果的多條硬體産品線、多種軟體生态服務、7億使用者群,都能夠源源不斷地産生使用者行為資料。裝置、服務、app的購買使用記錄可以用來做使用者畫像,系統應用的使用統計資料可以分析使用者習慣,每個地區市場的消費統計還可以用來分析消費趨勢、出營銷方案等等,而這還僅僅是基礎的、很容易想到的用途。如果大家還記得之前爆出過ios裝置存儲使用者幾個月内的gps定位記錄,其實已經表明,除了我們容易想到的使用記錄和購買記錄之外,還有不少資料也被記錄了,這些資料不僅更隐私,洩露以後對使用者還會有很大的威脅。

根據蘋果有能力收集的資料和lattice所能提供的技術,雷鋒網ai科技評論推測蘋果可能有如下打算:

一,蘋果記錄的使用者資料已經非常之多,首先需要考量資料存儲的安全性和可靠性,避免丢失和洩露,最好還能同時提升可用性;

二,通過深入分析使用者使用習慣資料,建立使用者模型,了解和預測使用者需求,繼續優化使用者體驗,作為後喬布斯時代“滿足使用者需求,創造新的增長點”政策的行動之一;

三,現在的人工智能研究嚴重依賴資料,可以把使用者産生的海量資料用于訓練自己的人工智能

四,蘋果對全球員工和全球供應商的資訊管理也可以借此機會進行更新,繼續提高資訊管理水準

不過鑒于蘋果的保密文化,外人可能最終也無從得知他們到底做了什麼。不過這起碼也給其它科技企業提了醒:别讓自己花了人力财力收集的資料躺在伺服器裡睡大覺了。

ai科技評論招業界記者啦!

在這裡,你可以密切關注海外會議的大牛演講;可以采訪國内巨頭實驗室的技術專家;對人工智能的動态了如指掌;更能深入剖析ai前沿的技術與未來!

如果你:

*對人工智能有一定的興趣或了解

 * 求知欲強,具備強大的學習能力

 * 有ai業界報道或者媒體經驗優先

履歷投遞:

[email protected]