天天看點

SQL Server+Hadoop 變身大資料解決方案

文章講的是<b>SQL Server+Hadoop 變身大資料解決方案</b>,在資料庫市場中,微軟的SQL Server是最受關注的産品之一。在資料庫知識網站DB-Engines每月公布的資料庫流行度排行榜中,SQL Server幾乎穩占第二名的位置。但從這個榜單每月的變化中也可以看出,大量NoSQL資料庫的排名不斷上升,已經開始威脅到傳統資料庫的地位。

  “以不變應萬變”不再是大資料時代應有的政策,老牌資料庫廠商在保持傳統市場領先的基礎上,不斷拓展新市場,微軟就是其中的一個代表。微軟的改變最早是為了向Bing提供高品質的搜尋結果,這與Google的情況類似,網際網路行業總是最早面臨大資料挑戰的。

SQL Server+Hadoop 變身大資料解決方案

  微軟端到端的大資料解決方案可以總結為SQL Server、Windows Azure和Hadoop,用微軟自己的話說就是資料管理、資料擴充和洞察力。下面筆者将按照自下而上的順序盤點微軟大資料解決方案的具體内容:

  <b>一、資料管理</b>

  在微軟的大資料解決方案中,資料管理是最底層和最基礎的一環。靈活的資料管理層,可以支援所有資料類型,包括結構化、半結構化和非結構化的靜态或動态資料。在資料管理層中主要包括三款産品:SQL Server、SQL Server并行資料倉庫和Hadoop on Windows。

  針對不同的資料類型,微軟提供了不同的解決方案。具體來說,針對結構化資料可以使用SQL Server和SQL Server并行資料倉庫處理;非結構化資料可以使用Windows Azure和Windows Server上基于Hadoop的發行版本處理;而流資料可以使用SQL Server StreamInsight管理,并提供接近實時的分析。

SQL Server+Hadoop 變身大資料解決方案

  1、SQL Server。去年釋出的SQL Server 2012針對大資料做了很多改進,其中最重要的就是全面支援Hadoop,這也是SQL Server 2012與SQL Server 2008最重要的差別之一。今年年底即将正式釋出的SQL Server 2014中,SQL Server進一步針對大資料加入記憶體資料庫功能,從硬體角度加速資料的處理,也被看為是針對大資料的改進。

  2、SQL Server并行資料倉庫。并行資料倉庫(Parallel Data Warehouse Appliance,簡稱PDW)是在SQL Server 2008 R2中推出的新産品,目前已經成為微軟主要的資料倉庫産品,并将于今年釋出基于SQL Server 2012的新款并行資料倉庫一體機。SQL Server并行資料倉庫采取的是大規模并行處理(MPP)架構,與傳統的單機版SQL Server存在着根本上的不同,它将多種先進的資料存儲與處理技術結合為一體,是微軟大資料戰略的重要組成部分。

  3、Hadoop on Windows。微軟同時在Windows Azure平台和Windows Server上提供Hadoop,把Hadoop的高性能、高可擴充與微軟産品易用、易部署的傳統優勢融合到一起,形成完整的大資料解決方案。微軟大資料解決方案還通過簡單的部署以及與Active Directory和System Center等元件的內建,為Hadoop提供了Windows的易用性和可管理性。憑借Windows Azure上基于Hadoop的服務,微軟為其大資料解決方案在雲端提供了靈活性。

<b>  二、資料擴充</b>

  社交媒體的興起給企業帶來獨特的計劃,以擷取更多商業價值,最終實作競争優勢。微軟大資料解決方案将資料和模型與公用的資料和服務(包括Twitter、Facebook和LinkedIn等社交媒體網站)相結合,進而能夠實作突破性的發現。在資料擴充層,微軟提供的最重要的平台是Windows Azure Marketplace。

  Windows Azure Marketplace是一個線上市場,用于購買和銷售完成的軟體即服務(SaaS)應用程式和進階資料集。Windows Azure Marketplace可以幫助将尋求基于雲的創新解決方案的公司與開發了準備使用的解決方案的合作夥伴連接配接到一起,使客戶能夠使用Windows Azure Marketplace上的應用程式和挖掘算法來發現隐藏的模式。

SQL Server+Hadoop 變身大資料解決方案

  ·通過Windows Azure Marketplace進行共享和協作:微軟大資料解決方案可讓客戶通過Windows Azure Marketplace共享資料并發現新的洞察力,Windows Azure Marketplace可通過開放資料協定(OData)展露數百種來自微軟和第三方的應用程式和資料挖掘算法。

  ·與社交媒體內建:微軟大資料解決方案可讓客戶通過來自社交媒體網站(例如Twitter和Facebook)的公用資料來擴充他們的分析。微軟的一款代号為“Social Analytics”的基于雲的項目允許企業将社交媒體資訊與業務應用程式相內建。

  ·借助Hadoop執行進階分析:微軟大資料解決方案支援傳統的BI以及進階分析(例如資料挖掘和圖形挖掘),進而可讓客戶從他們所有的資料中發現新價值。Hive ODBC Driver可讓客戶使用SQL Server資料挖掘工具執行預測分析。微軟還将支援Mahout等其他進階分析工具,以及使用C++、C#、Python、Ruby和Pearl編寫的挖掘算法。

 <b> 三、洞察力</b>

  企業收集、存儲和處理資料,最終目的還是要獲得洞察力。企業需要能夠輕松處理和分析PB 級的新資料,而不用擔心建立複雜的分布式存儲和計算叢集,并且要能夠随着需求的增加實作縮放。微軟大資料解決方案可讓客戶用熟悉的BI工具從他們的結構化和非結構化資料中獲得可執行的洞察力。

  從洞察力的層面,微軟提供了兩款主要的産品,分别是Office Powerpivot和SharePoint Power View。PowerPivot和Power View工具,能夠幫助企業快速的從資料中發現資訊,進而解決業務問題。其中,PowerPivot可以用來設計資料模型,Power View可以用來設計可視化報表,報表還可以釋出到SharePoint平台上。最終使用者能夠根據自己業務視角及要求設計資料模型并展示出來,充分利用資料和前台界面的力量,滿足業務需求。

SQL Server+Hadoop 變身大資料解決方案

  ·使用熟悉的工具分析Hadoop資料:微軟可讓使用者利用Excel的Hive元件在熟悉的Excel環境中與Hadoop中的非結構化資料進行互動并加以分析。

  ·通過任何資料獲得深入的洞察力:企業可以用熟悉的BI工具(例如Microsoft SQL Server Analysis Services (SSAS)、PowerPivot和Power View)通過Hive Open Database Connectivity (ODBC) Driver來分析Hadoop中的非結構化資料。企業還可以用SQL Server 2012上的PowerPivot和Power View對關系型資料采用自助服務的 BI 産品。

  ·通過簡化的程式設計驅動洞察力:微軟通過與.NET和新的JavaScript庫內建簡化了Hadoop的程式設計。開發人員可以在JavaScript中使用新的JavaScript庫來輕松編寫MapReduce程式,然後通過簡單的浏覽器來部署他們的JavaScript代碼。

 <b> 小結</b>

  微軟的大資料解決方案從本質上看還是原有SQL Server和Office産品的更新,最大的亮點是在SQL Server、Windows Server和Windows Azure中都內建了Hadoop功能,使Hadoop成為連接配接這三者之間的橋梁。微軟的大資料解決方案産品豐富、功能齊全,但相對缺乏創新。在使用者看來,微軟最大的特色就是産品的易用性和界面的友好性,這也是使用者選擇微軟的主要原因。