天天看點

大資料時代的五大商業分析技術趨勢

大資料時代的五大商業分析技術趨勢

目前,趨勢中心對如何應對分析挑戰的關注力度并不亞于他們考慮在新商業視角中如何充分利用機遇的力度。例如,随着越來越多的公司開始不得不面對海量資料以及考慮如何利用這些資料,管理與分析大型不同資料集的技術開始出現。提前分析成本與性能趨勢意味着公司能夠提出比以前更為複雜的問題,提供更為有用的資訊以 幫助他們營運業務。

在采訪中,首席資訊官們總結出了5大影響他們進行分析的it趨勢。它們分别為:大資料的增長、快速處理技術、it商品的成本下降、移動裝置的普及和社交媒體的增長。

1.大資料

大資料指非常龐大的資料集,尤其是那些沒有被整齊的組織起來無法适應傳統資料倉庫的資料集。網絡蜘蛛資料、社交媒體回報和伺服器日志,以及來自供應鍊、行業、周邊環境與監視傳感器的資料都使得公司的資料變得比以往越來越複雜。

盡管并不是每個公司都需要處理大型、非結構型資料集的技術。veriskanalytics公司首席資訊官perryrotella認為所有的首席資訊 官都應當關注大資料分析工具。verisk幫助金融公司評估風險,與保險公司共同防範保險詐騙,其在2010年的營收超過了10億美元。

rotella認為,技術上司者對此應當采取的态度是,資料越多越好,歡迎資料的大幅增長。rotella的工作是預先尋找事物間的聯系與模型。

hms公司首席資訊官cynthianustad認為,大資料呈現為一種“爆炸性”增長趨勢。hms公司的業務包括幫助控制聯邦醫療保險 (medicare)和醫療補助(medicaid)項目成本和私有雲服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。 hms通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。nustad稱:“我們正在收集并追蹤大量素材,包括結構性與 非結構性資料,因為你并不是總是知道你将在其中尋找什麼東西。”

大資料技術中談論最多的一項技術是hadoop。該技術為開源分布式資料處理平台,最初是為編輯網絡搜尋索引等任務開發的。hadoop為多個“非關系型(nosql)”技術(其包括couchdb和mongodb)中的一種,其通過特殊的方式組織網絡級資料。

hadoop可将資料的子集合配置設定給成百上千台伺服器的處理,每台伺服器彙報的結果都将被一個主作業排程程式整理,是以其具有處理拍位元組級資料的能力。 hadoop既能夠用于分析前的資料準備,也能夠作為一種分析工具。沒有數千台空閑伺服器的公司可以從亞馬遜等雲廠商那裡購買hadoop執行個體的按需訪 問。

nustad稱,盡管并不是為了其大型的聯邦醫療保險和醫療補助索賠資料庫,但是hms正在探索nosql技術的使用。其包括了結構性資料,并且能夠被 傳統的資料倉庫技術所處理。她稱,在回答什麼樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型資料庫管理出發是并不明智。不過,nustad 認為hadoop正在防止欺詐與浪費分析上發揮着重要作用,并且具備分析以各種格式上報的病人看病記錄的潛力。

在采訪中,那些體驗過hadoop的受訪首席資訊官們,包括rotella和shopzilla公司首席資訊官jodymulkey在内都在将資料服務作為公司一項業務的公司中任職。

mulkey稱:“我們正在使用hadoop做那些以往使用資料倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術。”例如,作為 一家比較購買網站,shopzilla每天會積累數太位元組的資料。他稱:“以前,我們必須要對資料進行采樣并對資料進行歸類。在處理海量資料時,這一工作 量非常繁重。”自從采用了hadoop,shopzilla能夠分析原始資料,跳過許多中間環節。

goodsamaritan醫院是一家位于印第安納州西南的社群醫院,其處于另一種類型。該醫院的首席資訊官chuckchristian稱:“我們并 沒有我認為是大資料的東西。”盡管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的資料類型。他稱,這無疑要求他們要能夠從資料中收集醫療保 健品質資訊。不過,這可能将在地區或國家醫療保健協會中實作,而不是在他們這種單個醫院中實作。是以,christian未必會對這種新技術進行投資。

islandoneresorts公司首席資訊官johnternent稱,其所面臨的分析挑戰取決于大資料中的“大”還是“資料”。不過,目前他正在 謹慎地考慮在雲上使用hadoop執行個體,以作為一種經濟的方式分析複雜的抵押貸款組合。目前公司正在管理着佛羅裡達州内的8處分時度假村。他稱:“這種解 決方案有可能解決我們目前正遇到的實際問題。”

2.商業分析速度加快

肯塔基大學首席資訊官vincekellen認為,大資料技術隻是快速分析這一大趨勢中的一個元素。他稱:“我們期待的是一種更為先進的海量資料分析方法。”與更為快速地分析資料相比,資料的大小并不重要,“因為你想讓這一過程快速完成”。

由于目前的計算能夠在記憶體中處理更多的資料,是以與在硬碟中搜尋資料相比,其計算出結果的速度要更快。即使你僅處理數g資料,但情況依然與此。

盡管經過數十年的發展,通過緩存頻繁通路的資料,資料庫性能提升了許多。在加載整個大型資料集至伺服器或伺服器叢集的記憶體時,這一技術變得更加實用,此時硬碟隻是作為備份。由于從旋轉的磁盤中檢索資料是一個機械過程,是以與在記憶體中處理資料相比,其速度要慢許多。

rotella稱,他現在幾秒中進行的分析在五年前需要花上一個晚上。rotella的公司主要是對大型資料集進行前瞻性分析,這經常涉及查詢、尋找模 型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:“以前,運作時間比模組化時間要長,但是現在模組化時間要比運作時間長。”

列式資料庫伺服器改變了關系型資料庫的傳統行與列結構,解決了另一些性能需求。查詢僅通路有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。

ternent警告稱,列式資料庫的性能優勢需要配合正确的應用和查詢設計。他稱:“為了進行差別,你必須以适當的方式問它适當的問題。”此此同時,他 還指出,列式資料庫實際上僅對處理超過500g位元組資料的應用有意義。他稱:“在讓列式資料庫發揮作用之前,你必須收集一規模的資料,因為它依賴一定水準 的重複提升效率。”

保險與金融服務巨頭johnhancock公司的首席資訊官allanhackney稱,為了提高分析性能,硬體也需要進行提升,如增加gpu晶片,其 與遊戲系統中用到的圖形處理器相同。他稱:“可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的pc和伺服器處理器相比,圖形處理器的 計算速度要快數百倍。我們的分析人員非常喜歡這一裝置。”

3.技術成本下降

随着計算能力的增長,分析技術開始從記憶體與存儲價格的下降中獲益。同時,随着開源軟體逐漸成為商業産品的備選産品,競争壓力也導緻商業産品價格進一步下降。

ternent為開源軟體的支援者。在加入islandone公司之前,ternent為開源商業智能公司pentaho的工程副總裁。他稱:“對于我來說,開源決定着涉足領域。因為像islandone這樣的中等規模公司能夠用開源應用r替代sas進行統計分析。”

以前開源工具僅擁有基本的報告功能,但是現在它們能夠提供最為先進的預測分析。他稱:“目前開源參與者能夠橫跨整個連續統一體,這意味着任何人都能夠使用它們。”

hms公司的nustad認為,計算成本的變化正在改變着一些基礎性架構的選擇。例如,建立資料倉庫的一個傳統因素是讓資料一起進入擁有強大計算能力的 伺服器中以處理它們。當計算能力不足時,從作業系統中分離分析工作負載可以避免日常工作負載的性能出現下降。nustad稱,目前這已經不再是一個合适的 選擇了。

她稱:“随着硬體與存儲越來越便宜,你能夠讓這些作業系統處理一個商業智能層。”通過重定資料格式和将資料裝載至倉庫中,直接建立在操作應用上的分析能夠更為迅速地提供答案。

hackney觀察認為,盡管成本效益趨勢有利于管理成本,但是這些潛在的節約優勢将被日益增長的能力需求所抵消。盡管johnhancock每台裝置的存儲成本在今年下降了2至3%,但是消耗卻增長了20%。

4.移動裝置的普及

與所有的應用一樣,商業智能正日益移動化。對于nustad來說,移動商業智能具有優先權,因為每個人都希望nustad能夠随時随地親自通路關于她的 公司是否達到了服務級協定的報告。她還希望為公司的客戶提供資料的移動通路,幫助客戶監控和管理醫療保健開銷。她稱:“這是一個客戶非常喜歡的功能。在五 年前,客戶不需要這一功能,但是現在他們需要這一功能了。”

對于首席資訊官來說,要迎合這一趨勢更多的是為智能手機、平闆電腦和觸摸屏裝置建立适用的使用者界面,而不是更為複雜的分析能力。或許是出于這方面的原因,kellen認為這相對容易。他稱:“對于我來說,這隻是小事情。”

rotella并不認為這很簡單。他稱:“移動計算影響着每一個人。許多人開始使用ipad工作,同時其它的移動裝置正在呈現爆炸式增長。這一趨勢正在 加速并改變我們與公司内部計算資源互動的方式。”例如,verisk已經開發了能夠讓理賠人在現場快速進行分析的産品,是以他們能夠進行重置成本評估。他 稱:“這種方式對我們的分析産生了影響,同時也讓每一個需要它的人随手就能使用。”

rotella稱:“引發這種挑戰的因素在于技術的更新速度。兩年前,我們沒有ipad,而現在許多人都在使用ipad。随着多種作業系統的出現,我們正力争搞清楚其是如何影響我們的研發的,這樣一來我們就不必一而再、再而三的編寫這些應用。”

islandone的ternent指出,另一方面,為每一種移動平台建立原生應用的需求可能正在消退,因為目前手機和平闆電腦上的浏覽器擁有了更為強 大的功能。ternent稱:“如果我能夠使用一款專門針對移動裝置的基于web的應用,那麼我并不能肯定我将會對定制的移動裝置應用進行投資。”

5.社交媒體的加入

随着臉譜、推特等社交媒體的興起,越來越多的公司希望分析這些由網站産生的資料。新推出的分析應用支援人類語言處理、情感分析和網絡分析等統計技術,這些并不是典型商業智能工具套件的組成部分。

由于它們都是新的,許多社交媒體分析工具可以作用服務獲得。其中一個典型範例是radian6。radian6為軟體即服務(saas)産品,近期已經 被salesforce.com所收購。radian6是一種社交媒體儀表盤,為twitter的留言、臉譜上的文章、部落格與讨論版上的文章與評論中提及 的特定術語以正負數顯示,尤其是為商标名提供生動的直覺推斷。當營銷與客戶服務部門購買後,這類工具不再對it部門有很嚴重的依賴性。目前,肯塔基大學的 kellen仍然相信他需要對它們高度關注。他稱:“我的工作是識别這些技術,根據競争力評估哪些算法适合公司,然後開始教育訓練合适的人員。”

與其他公司一樣,大學也對監督他們大學的聲譽十分感興趣。與此同時,kellen表示,他可能還将尋找機會以開發專門用于解決學校所關注問題的應用,如 監督學生入學率等問題。例如,監控學生在社交媒體上的文章能夠有幫于學校與管理人員盡早了解學生在大學裡遇到的麻煩。kellen稱,目前戴爾已經做了這 些工作,其産品支援公司探測人們關于故障筆記本電腦的推文。他稱,it開發人員還應當尋找一些辦法将社交媒體分析得出的報警資訊推送至應用中,以便于公司 對相關事件快速做出反應。

hackney稱:“我們沒有訣竅,也沒有工具處理和挖掘海量社交媒體文章的價值。不過,一旦你收集了資料,你需要有能力擷取公司事件的充足資訊,以将 它們關聯起來。”雖然hackney稱johnhancock在這一領域内的努力還處于“起步階段”,但是他認為it部門将在公司資料的社交分析服務所提 供的資料關聯中發揮重要作用。例如,如果社交媒體資料顯示公司在中西部地區的社會評論越來越負面,那麼他将希望看一下如果公司在該地區就價格或政策進行調 整是否會扭轉這一負面發展趨勢。

<b></b>

<b>原文釋出時間為:2013-08-20</b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>