天天看點

以大資料優化為基礎建構未來就緒企業

引言

打造未來就緒的企業,并非以“預測未來”為前提,而是面向未來做好準備。

大資料真正的價值即在于為面向未來做好準備,幫助企業規避風險。

戴爾提供專門為大資料目标而設計的端到端體系架構,助力企業通過大資料獲得商業洞察,面向未來就緒。

正如納特·西爾弗(nate silver)在他的暢銷書《信号與噪聲》(the signal and the noise)中寫的,預測未來是非常困難的,因為“我們選擇性地忽略了最難以衡量的風險,即便這些風險對我們的生活構成了最大的威脅”。

以大資料獲得商業洞察 面向未來就緒

在商業領域,企業的上司人往往寄希望于通過“預測未來”讓自己在競争中勝出,他們不厭其煩地說服自己和其他人:這世界上确實存在一些具有前瞻性的,能夠“遠遠眺望到未來的人”,而這些人就是他們自己——企業的上司者和管理者。

但正如戴爾在打造“未來就緒企業”(fre)戰略中所倡導的,打造未來就緒的企業(fre),并非基于對未來的預測,而是側重于面向未來做好準備——設計并實施靈活、高效的體系架構,進而讓企業更靈敏地反應、更果斷地改變。未來就緒的企業緻力于成為倡導開放性的典範——樂于接受新觀念、新流程,尤其是接受能夠避免刻闆和傳統的、促進創新和靈活的開放式it架構。

這同樣也應當是企業對待大資料的态度,客觀來說,大資料确實蘊含了寶貴的企業經營資訊,通過對大資料分析,企業的管理者能夠有效、直接、準确地了解企業的營運情況、潛在問題以及商業優勢,但就對未來的預測來說,大資料更多的是提供進行預測的藍本和避免錯誤發生的預警。

換句話說,大資料分析乃至實時分析,提供的是側重于面向未來做好準備、或是及時發現問題以規避企業經營風險的作用,“以古通今”可以,“以過去預測未來”則顯得不是那麼實際了。

但這并非意味着大資料沒有價值了,對企業營運來說,避免發生錯誤和疏漏,可以說對企業維持正常營運貢獻了一半以上的價值,如果再能藉此獲得一些“預測未來以及做出決定”的可供參考的資料支撐,則大資料對于企業經營的價值肯定還會大幅上升,這也就是為什麼目前人們要求越來越快、越來越準确的大資料實時分析的重要原因之一。

在企業營運過程中,大資料産生價值至少需要三個組成部分,缺一不可:

第一,承載大資料的平台是足夠可靠的,并且是足夠快的,可以将大資料快速供給到資料處理、分析平台,保證“持續性的資料供應”;

第二,資料處理及分析的體系架構是高效率且可信的,這要求整體架構(特别是軟體平台)不僅分析速度要快,響應時間要短,更要求任何資料分析平台都可以快速融合到企業現有的資料平台或資料源/流中;

第三,資料的備份、恢複仍然非常重要,随着資料實時分析成為企業的關鍵業務,一旦出現資料丢失、損壞等原因無法向實時分析平台供給資料,這相當于關鍵業務出現了停擺,這是不能被允許的。

在戴爾大資料及資料分析的技術藍圖中,戴爾強調“提供端到端的體系架構”,專門為大資料目标而設計,利用資料分析和資料管理在軟硬體上的內建,實作最終效果的提升,徹底改變資料業務運作效率,推動業務轉型,在企業客戶的應用中,“分析速度最高可提升70倍,預測分析響應時間最快可加快60倍”,那麼,戴爾是怎麼做到的呢?

硬體加速 讓運作速度快上100倍

作為所有大資料解決方案的基礎,硬體平台所能提供的速度是任何軟體優化所不能比拟的,正如國内許多網際網路公司的dba最近幾年對閃存技術,尤其是pcie ssd的追捧,遠勝過他們對于sql語句和資料結構優化的熱情,硬體平台是一切速度提升最直接、最根本的辦法。

針對這一市場需求,戴爾與hadoop領域的no.1 cloudera合作,面向cloudera enterprise打造了記憶體一體化應用,dell (cloudera)in-memoryappliances,這一平台以戴爾的poweredge c系列伺服器為基礎,結合戴爾與英特爾合作的性能及安全調優方案和高性能網絡,借助cloudera針對hadoop及spark工作負載的部署、配置、調優技術,建立起高性能、可靠的大資料平台。

這一方案與mapreduce相比,運作工作的速度快100倍,與傳統磁盤的方案相比,in-memory的速度快10倍,同時,這一單一平台可以支援多種架構,支援hadoop和spark,簡化營運、降低成本,并且完全基于橫向擴充的技術進行搭建。

除此以外,戴爾在近兩年針對資料存儲及大資料需求,不斷優化硬體平台性能:提升13g poweredge伺服器的能力,特别推出fx2、r730/r730xd、r530xd等适合大資料環境的高性能計算系統;完全針對閃存特性進行了性能優化的戴爾存儲sc系列存儲系統;force 10系列高性能、高密度、低延遲的網絡交換機,都為面向大資料優化的解決方案提供了完整就緒的硬體平台。

讓預測和分析輕松起來 将資料轉化為洞察力

在資料處理、分析、進而提取價值、實作預測,并更進一步将資料轉化為洞察力之前,資料先要進行由外向内的遷移,并進行資料內建,建構起覆寫面足夠廣、資料量級足夠大的資料集合,這其中至少包括兩項工作:在資料集(如資料庫)之間進行資料的複制和遷移,以及在應用程式之間的遷移。

比如說,就實作資料集中的資料遷移來說,目前大資料主流的資料集平台是hadoop、greenplum,而企業業務系統和原有平台中的結構化資料往往是基于oracle資料庫或是sql server所建構的,這意味着企業需要從oracle資料庫遷移到hadoop或是greenplum。這就是戴爾shareplex所做的事情。

在其客戶網秦的應用過程中,shareplex非常好地幫助網秦消除了各類應用系統軟體更新或遷移過程中的服務停滞時間,實作了線上式的軟體系統更新,另一方面quest shareplex高效支援異構的it平台,可以幫助資料庫管理者實作高效融合,輕松完成資料的彙集和分發,這讓網秦資料管理效率提升10倍。

在應用程式之間同步資料同樣令人頭疼,為了消除使用舊式中間件、應用方案或自定義代碼時,所産生的與內建、及維護內建相關的成本,企業客戶尋找過很多的解決方案,但歸根結底,他們需要的不過是簡化軟體及裝置的、連接配接内部或雲中同步業務關鍵型應用程式之間的資料(比如salesforce)的方法。

換言之,企業需要連接配接内部傳統it架構、内部私有雲、外部混合雲及公有雲的資料連接配接及同步方案——這正是boomi atomsphere要做的事情,以資料映射建議引擎boomi suggest為核心,企業客戶可以使用直覺的拖放界面立即建立內建流程,自動準确建議映射并在應用程式之間輕松映射資料字段;

更可使用boomi基于web且功能豐富的控制闆,監控和維護已部署的內建流程。

boomi atomsphere的價值在于,資料映射的建立隻需要通過簡單地拖動來解決,可視化設計的界面避免了複雜的編碼工作,“封包”了所有的複雜性,并且可以集中管理和監控所有內建流程,“以跟蹤總體內建性能以及個别流程的執行名額”。

具有行業特性的服務和解決方案 更聚焦、更可信的商業洞察

基礎架構已經準備就緒,資料集合已經準備就緒,順理成章來到了第三步,這一步正是大資料真正創造價值的部分:統計資料、處理資料、分析資料,形成對業務的有效結論,将資料轉化為洞察力。

戴爾statistica大資料分析正是這一步的關鍵,statistica big data analytics是一種先進的内容挖掘和分析解決方案,完全內建了自動化配置及雲功能,可以在幾分鐘内彙集自然語言處理、機器學習、進階搜尋和可視化,并可以與hadoop結合起來,幫助各種規模的企業更有效地處理資料。

最新的statistica 13可以将企業把預測模型直接部署到資料源的流程進行簡化和改進,無論這些資料源在防火牆内、雲中還是合作夥伴生态系統中。作為一個無需編碼并與開源r無縫內建,且易于使用的解決方案,戴爾statistica提供全面的資料融合、資料發現以及先進的預測分析工具,幫助企業利用所有資料來預測未來趨勢、發現新客戶和銷售機會、探索“假設”場景,并降低欺詐和其它業務風險的可能性。

值得一提的是,新的本地分布式分析(nda)功能,讓使用者可以直接在資料所在的資料庫中運作分析,并更有效地使用不斷增長的大型資料集。

nda功能把預測算法模組化和計分功能直接推送到資料源。這消除了把資料拉取到中間伺服器或桌面的耗費時間,且規避了令資料受限的流程,讓所有分析處理直接在資料庫内發生,并讓企業能夠充分利用hadoop叢集、資料庫裝置和其它高性能平台的威力。

但戴爾在大資料領域的業務就緒并非隻有軟硬體,随着戴爾服務繼續在進階分析和資料科學領域加強ip主導的服務産品,一系列新的bpo服務正式上線,其中包括欺詐、浪費和濫用的管理,拒絕可能性計分和預測分析,客戶流失管理/客戶保留服務,以及建立早期報警和文本分析的dell service deskanalytics,和幫助客戶跟蹤、監測各種計分卡或預測分析模型效果的dell modelhealth tracker。

除此以外,戴爾深刻了解“大資料是具有行業特性的,行業要解決的是具有行業特色的大資料”,戴爾服務在先進分析領域有50多個解決方案,包括聚焦人口健康、患者再入院和健康風險分層等關鍵問題的醫療分析産品;聚焦線上交易和欺詐監測的金融分析産品;以及保險相關産品,聚焦于通過lifesys(用于保險索賠處理的戴爾平台)中嵌入的分析而減少客戶流失。

高性能的資料保護與恢複 為大資料的可靠、可用保駕護航

最後一步,為了保證大資料可靠、可用,在戴爾的未來就緒企業的技術藍圖中,資料保護、備份恢複乃至容災是非常重要的組成部分,appassure 備份、複制和恢複軟體 + netvault 備份正是為此準備的。

在這一解決方案之中,企業客戶可以在單一的解決方案中統一進行備份、複制和恢複,保護實體、虛拟和雲環境中的資料;幾乎可以瞬間恢複系統運作,恢複時間目标(rto)隻有幾分鐘;在意外發生後,提供近乎不間斷的資料通路,確定業務的不間斷,但戴爾在這方面的能力還不止如此。

rapid recovery在戴爾的資料保護産品組合之中是一個值得記住的名字,因為這一産品不僅內建了appassure,而且是一款在開發時充分考慮了雲恢複的産品,比如說可以從雲存檔中裸機恢複 (bmr),采用含加密的rapid recovery repository(r3)以及基于經過驗證的rapid data access(rda)用戶端重複資料删除技術——這為從雲中實作更快速的快照複制、縮短資料傳輸時間和更高的規模提供了技術基礎。

除此以外,rapid recovery還包括兩個功能:

1.rapid snap for applications技術,可以捕捉整個應用及相關狀态,實作完整的應用和系統恢複,擁有接近于零的rto和激進的rpo;

2.rapid snap for virtual功能,基于dell vranger技術,為不斷擴大的vmware環境提供可擴充的無代理保護,并自動檢測和備份esxi主機上配置的虛拟機。

rapid recovery的高性能、大規模、雲适應能力,能夠為大資料提供可靠、可用的有效保障,而這正是四步大資料優化的最後一步,曆經基礎架構、資料集合、資料洞察與資料保護的四步優化,大資料才能夠真正順暢地在企業中發揮其應用的價值,為未來就緒企業的商業洞察與業務發展,提供萬全的大資料準備。

本文轉自d1net(轉載)