在今天的商務環境當中,企業正越來越多地向進階分析機制伸出求助之手,希望借此從規模更龐大且各類愈發繁雜的資料中彙總出指導性意見,進而找到可行模式、異常情況與可預測結果。
“我們的研究結果清晰地表明,進階分析正在迅速成為企業營運與決策制定流程中的組成部分,而且其影響範圍幾乎涵蓋了所有産業門類,”研究企業hurwitz & associates公司coo兼首席分析師marcia kaufman與進階分析師daniel kirsch在最近釋出的《進階分析:2014年hurwitz成功指數報告》當中寫道。“企業單單了解過去曾經發生了什麼已經遠遠不夠,他們還需要掌握發生将要發生哪些變動,并通過趨勢預測采取行動、最終實作業務成果優化。”
舉例來說,某家藥店目前正利用進階分析來幫助他們提前六個月預測流感季或者過敏季的确切影響範圍,進而使其更為有效地控制對應藥物庫存量,保證貨品既不緻短缺又不會積壓——空出來的寶貴貨架空間則可被用于擺放其它商品。
農場則利用進階分析機制預測何時播種、如何優化農作物産量以及何時着手采摘。裝置制造商們利用進階分析機制預測生産線上的哪台産品将會出現故障,這樣他們就能在計劃外停機事件發生之前進行預防性的維護工作。
金融服務企業利用這項技術應對内部與外部欺詐行為。專業運動團隊則利用這項技術處理各種各樣的常見問題,包括利用運動員身上的傳感器制定優化訓練方針并預測可能出現的身體損傷。可以說進階分析方案的适用性是永無止境的。
“我們真正緻力于實作的其實是預測消費者的行為模式,”kirsch表示。“企業使用者希望有能力提供更具個性化的方案:花錢購買三件汗衫本身并沒什麼出彩,但如果廠商能夠同時允許這部分使用者以七折價格加購一包短褲的話,相信很多朋友一定會動心。作為普通消費者,如果能獲得這樣獨特的服務内容,我們應該會對廠商産生強烈的好感。”
目前進階分析領域正在迅速發展,旨在滿足企業使用者不斷變化的實際需求,kirsch解釋道。下面将要介紹的十一大市場發展趨勢,正是hurwitz & associates公司通過觀察總結出的、将主導進階分析未來走向的重要因素。
1.客戶希望能将硬體與軟體整合起來以處理分析工作負載
進階分析客戶們正積極找尋能夠通過預內建以及優化方式運作進階分析工作負載的硬體,而這也給了sap、ibm以及sas等傳統供應商涉足這一市場的好機會。在報告中,kaufman與kirsch指出,這些硬體産品允許使用者在擴充對大資料及進階分析負載支援能力的同時,繼續保有出色的速度與可靠性表現。
“sap打造的記憶體内平台hana允許客戶與合作夥伴将專門為高速與大規模分析負載設計的infinitesight運作在自有硬體之上,”他們寫道。“除此之外,ibm的puredata system則是一套專門針對營運分析工作負載設計并優化的內建系統。客戶能夠在它的幫助下享受更為出色的可靠性、可擴充性以及內建系統sas所帶來的卓越處理速度——這要歸功于ibm與資料庫開發商teradata共同合作所打造出的這套預內建與優化平台。”
2.供應商将垂直與水準用例打包提供
kirsch指出,客戶正越來越多地将目光投向終端到終端垂直或者水準解決方案,而供應商也在積極據此拿出有針對性的技術成果,其垂直行業涵蓋對象包括醫療、金融乃至政府事務部門。水準方案組合則包括客戶服務、客戶流失控制以及欺詐活動預防等等。
“這些解決方案中已經預告內建了最佳實踐、資料準備自動化以及自動模式建立等機制,但同時也允許使用者對其進行一定程度的定制,”kaufman與kirsch解釋道。“舉例來講,sas的客戶智能平台就為客戶提供了一系列工具,旨在為其提供個性化使用體驗;而pega則專注于為sap及salesforce.com産品帶來擴充功能。pega的産品允許客戶以特定資料源為基礎,運作業務流程管理(簡稱冠bpm)與客戶關系管理(簡稱crm)分析任務。”
3.開源程式設計語言r正愈發普及
作為一種專門面向計算編譯、虛拟化與資料的開源程式設計語言,r語言正逐漸成為進階分析産品當中不可替代的必要工具。
kirsch指出,幾乎每一家頂級進階分析方案供應商都已經将r語言內建到了自己的産品當中,并借此獲得了将r模型導入其中的能力。在這種情況下,資料科學家、統計學家以及其他進階企業使用者得以在自己的分析方案包中自由使用r語言。
kirsch同時表示,這一趨勢當中最大的受益者當數revolution analytics公司——這是一家專門為r語言提供企業級支援服務的領先供應商。kaufman與kirsch還提到了進階分析企業predixion公司,其關注重點在于将r語言由原本的資料科學家與統計學家群體推廣至規模更大的企業使用者領域——他們利用一套向導界面實作了這一目标。
4. python為通用型程式員打開了一道通往進階分析的大門
r語言通常隻适用于那些有能力利用高深資料分析與機器學習技術自行開發複雜分析模型的資料科學家,而開源語言python則允許更為廣泛的通用型程式員們加入到進階分析領域中來。
“盡管python并不像r語言那樣具備精妙的深度資料分析與機器學習能力,但其社群正努力開發出更有針對性的進階分析相關功能,”kaufman與kirsch指出。“ibm與sas都允許客戶将r與python語言內建在大型項目當中。”
5.可視化界面幫助企業使用者獲得更具可通路性的進階分析方案
資料科學家這一群體畢竟較小、與普通使用者的距離也較為遙遠,相比之下中小型企業往往仍在為建立具備豐富經驗的分析團隊而頭痛不已——可以了解,畢竟緊張的預算使其很難具備充分的發揮空間。與此同時,分析機制則在企業的各個決策層面扮演重要角色,進而進一步增加了企業使用者對通路資料分析結論能力的渴求。有鑒于此,進階分析供應商們紛紛将注意力集中在相關功能身上,希望自己的平台能夠盡可能友善企業使用者的實際應用。
“舉例來說,sap正努力将預測流程推向自動化,同時angoss也為決策與政策樹打造出一套極具可視化特性的界面方案,”kaufman與kirsch在報告中寫道。“sas與ibm都已經針對企業使用者釋出了特定産品。舉例來說,sas的visual analytics方案與ibm的analytics catalyst都專門為企業使用者而生。”
6.實時資料流與物聯網炙手可熱
随着越來越多裝置開始接入網際網路,對于實時資料流的分析需求也在迅速增長。通過将進階分析與流資料相結合,企業能夠作出更具靈活性的響應,進而為網絡購物客戶提供更具個性化的推薦商品清單或者在維修人員注意到之前全程監控噴氣發動機中有可能引發故障的各關鍵性名額。
“從傳統角度講,航空公司在處理這方面工作時主要依靠手動設定門檻值以及直覺檢查,”kaufman與kirsch表示。“這些門檻值設定可能會在引擎過熱時發出警報,但卻無法确定幾種通常無害的因素結合起來有可能引發怎樣的潛在危害。供應商對這類需求作出響應,拿出了能夠處理實時資料的分析方案。sas的事件流處理引擎與ibm的infosphere streams允許使用者在資料使用過程中對其加以分析。”
7.資料可視化已經成為一種業務需求
資料可視化在企業當中的重要地位正不斷提升,這是因為企業使用者如今幾乎被流資料、社交媒體資料、機器資料以及其它大規模結構化、半結構化乃至非結構化資料所淹沒。可視化能夠有效幫助分析師們從紛繁複雜的資訊當中提取有價值結論,這一點是傳統資料清單、電子表格以及圖表所無法實作的。
“可視化可能會成為企業使用者處理資料資訊的主要界面,甚至作為資料科學家邁出第一步的基礎平台,”kafuman與kirsch表示。“為了幫助企業使用者與資料科學家彌合二者之間的顯著差異,供應商們開始在産品中添加豐富的可視化功能。可視化功能可以根據不同使用者群體加以定制,進而幫助對方更為便捷地對内容進行了解。某些供應商甚至推出了一系列更為複雜的可視化産品。舉例來說,sas也擁有自己的記憶體内互動式可視化工具,也就是sas visual analytics。ibm的快速自适應可視化引擎(簡稱rave)則以spss analytic catalyst為基礎,旨在幫助使用者根據資料集擷取可視化建議。其它供應商,包括megaputer、rapidminer以及satasoft等等,也都将可視化功能添加到了自己的核心産品當中。”
8.企業将大資料分析引入到全部決策制定活動當中
僅僅借助統計或者資料分析部門的支援已經不足以科學有效地完成分析工作并發揮其潛力。企業希望能将分析機制作為決策制定流程的組成部分,并将其推廣到各個職能部門當中,包括市場推廣、銷售、營運、财務以及人力資源等等。
“為了在上述職能區劃中改進客戶激勵與結果優化機制,企業希望能将更多不同類型的資料納入到分析範疇中來,”kaufman與kirsch指出。“舉例來說,資料類型的範圍包括機器生成、其它傳感器資料、移動與财務回報資料甚至是社交媒體資料,這一切都将被作為大資料分析對象。這些企業希望解決方案供應商支援規模更為龐大的資料集。”
供應商們的應對方式是利用綜合性平台幫助使用者将大資料分析與貫穿企業各個部門的分析事務結合起來。kirsch指出,ibm的spss分析伺服器就是其中的典型代表,它能幫助企業使用者更快地擷取到大資料預測性分析結果。
9.分析服務逐漸由雲端負責托管
進階分析供應商們開始越來越多地以雲作為載體,旨在為使用者提供更具成本優勢的分析功能。這樣一來,那些以往負擔不起複雜内部解決方案帶來的高昂支出的企業也開始享受到分析服務帶來的收益。
“其中一部分産品專門針對特定用例所打造,”kaufman與kirsch在報告中提到。“舉例來說,angoss、pega與sap都通過appexchange對crm資料進行分析,進而提供salesforce.com應用程式。angoss、ibm與sas則帶來了更為靈活的軟體即服務産品,允許客戶利用基于雲的軟體方案處理通用型分析任務。”
10.利用資料庫内分析解決etl(即提取、轉換與加載)挑戰
性能、資料管理與安全性是使用者在對大規模資料集進行進階分析時難以回避的三大嚴峻挑戰。資料庫内分析的出現有效緩和了這些挑戰,讓使用者得以親自在資料庫内部署自己的分析模型、進而免去了将資料移動至分析環境這一複雜流程。通過對内部資料進行分析,使用者們能夠在體驗性能與效率提升之外簡化安全保障與資料管理工作,這是因為資料對象從來沒有離開過安全資料庫半步。
“很多供應商已經開始提供面向多種資料平台的資料庫内功能,其中自然包括hadoop,”kaufman與kirsch指出。“ibm、sas、rapidminer、revolution analytics、predixion、statsoft、sas以及angoss都支援資料庫内資料挖掘技術。在根據資料庫内功能評估供應商技術實力時,很重要的一點在于了解對方是否能夠支援企業目前正在使用的資料平台。某些供應商隻支援hadoop,但也有不少供應商能夠支援幾乎全部常見資料平台。”
11.企業向預測模型标記語言(簡稱pmml)伸出橄榄枝
随着更多企業由指分析轉向利用實時回報擷取結論、進而不斷改進自己的模型精确度,他們也在越來越多地使用預測模型标記語言(簡稱pmml)。pmml是統計與資料挖掘模型的一種執行标準,由data mining group(簡稱dmg)所開發——而dmg屬于獨立于供應商之外、保持中立态度的技術組織。ibm與sas都是dmg的正式會員,此外sap、statsoft、rapidminer以及angoss也都為pmml的開發作出了貢獻。kirsch指出,這套标準使使用者能夠更加輕松地利用特定應用程式為特定系統開發出模型,并在需要時利用另一種應用程式将其部署到其它不同系統之上。
“企業使用者們發現利用pmml将模型部署在應用程式當中有助于克服延時,并能讓模型更加高效快速地參與到生産流程當中,”kaufman與kirsch表示。“使用pmml的最大優勢在于,它能夠消除定制化編碼與專有處理流程所帶來的高成本與大量時間投入。”
原文釋出時間為:2014-07-31
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号