天天看點

大資料工具千千萬,到底誰才是最強王者?

外面有成千上萬的大資料工具。它們都承諾可以為你節省時間和資金,并幫助發掘之前從來見過的業務洞察力。雖然确實如此,可是面對那麼多的選擇,想理清這麼多的工具談何容易。

哪一種工具适合你的技能組合?哪一種工具适合你的項目?

為了替你節省一點時間,并幫助你首次選對工具,我們列出了我們青睐的幾款資料工具,涉及資料提取、存儲、清理、挖掘、可視化、分析和整合等領域。

資料存儲和管理

如果你準備處理大資料,就要考慮該如何存儲大資料。大資料得到“大”這個名号,一方面在于,大資料太龐大了,傳統系統處理不了。一家優秀的資料存儲提供商應該可以為你提供一套基礎設施,除了用來存儲和查詢資料外,你還可以在上面運作其他所有分析工具。

Hadoop

大資料工具千千萬,到底誰才是最強王者?

Hadoop這個名稱已成為了大資料的代名詞。它是一種開源軟體架構,用于在計算機叢集上分布式存儲非常龐大的資料集。這一切意味着你可以擴大或縮小資料規模,沒必要為硬體故障而擔心。Hadoop為任何一種資料提供了海量存儲空間、強大的處理能力以及處理幾乎無限制的并發任務或作業這一功能。

Hadoop并不适合資料初學者。想真正發揮其功能,你其實需要知道Java。這可能需要一番投入,但是Hadoop無疑值得你付出努力――因為其他許多公司和技術運作在它的基礎上或者與它整合起來。

Cloudera

說到Cloudera,它其實是Hadoop的一個品牌名,上面添加了一些額外服務。它可以幫助貴公司建構一個企業資料樞紐,讓貴企業的人員可以更友善地通路所存儲的資料。

雖然确實有開源元件,但Cloudera主要還是一款企業解決方案,幫助公司管理Hadoop生态系統。實際上,它可以替你處理管理Hadoop的大量繁重工作。它還提供了一定級别的資料安全性,如果你要存儲任何敏感資料或私人資料,這至關重要。

MongoDB

MongoDB是新穎的現代資料庫方法,可謂是後起之秀。它好比是關系資料庫的替代技術。它适用于管理經常變化的資料或者非結構化或半結構化資料。

常見的使用場合包括:為移動應用程式、産品目錄、實時個性化、内容管理以及跨多個系統提供單一視圖的應用程式存儲資料。MongoDB同樣不适合資料新手。與任何資料庫一樣,你确實需要了解如何使用一種程式設計語言來查詢它。

Talend

Talend是另一家出色的開源公司,它提供許多資料産品。我們在這裡主要介紹其主資料管理(MDM)産品,該産品将實時資料、應用程式和流程整合與嵌入式資料品質及監管結合起來。

由于是開源産品,Talend完全免費,因而是個不錯的選擇,無論貴公司處于哪個發展階段。而且,它讓你沒必要建構和維護自己的資料管理系統――這是一項非常複雜而困難的任務。

開始入門

如果你對大資料完全一無所知,資料庫可能不是最适合入手的方面。它們比較複雜,确實需要具備一定的程式設計知識才能上手(這不像下面提到的其他許多工具)。

然而,如果你确實想要從事或處理大資料,那知道資料庫的基本知識、聊起資料庫頭頭是道必不可少。你可以全面了解推動大資料的技術,包括資料庫和存儲發展史、關系資料庫和文檔資料庫的差別、大資料的挑戰以及必不可少的工具,還有Hadoop簡要介紹。

資料清理

在你真正挖掘資料、擷取洞察力之前,需要清理資料。盡管建立一個整潔、結構清晰的資料集總是好做法,但有時這并非始終行得通。資料集可能形狀和大小不一(有些好的,有些不太好!),尤其是你從網上擷取資料時。下列公司可以幫助你完善和重組資料,處理成實用的資料集。

OpenRefine

OpenRefine(以前叫GoogleRefine)是一種開源工具,專門用于清理淩亂的資料。你可以輕松快速地浏覽龐大的資料集,即便資料有點非結構化。

就資料軟體而言,OpenRefine很易于使用。不過,熟悉資料清理原則肯定有所幫助。OpenRefine好就好在,它有一個龐大社群,擁有衆多貢獻者,這意味着這款軟體在不斷變得完善。要是遇到了難題,你可以向社群提問。可以檢視其Github代碼庫

DataCleaner

DataCleaner認識到資料處理是一項冗長乏味的任務。資料可視化工具隻能讀取結構條理化、“幹淨”的資料集。DataCleaner可以替你幹髒活,将淩亂的半結構化資料集轉換成幹淨的、可讀取的資料集,那樣所有可視化公司都能讀取。

資料挖掘

别将資料挖掘與後面介紹的資料提取混為一談,資料挖掘是指發現資料庫裡面的洞察力,而不是從網頁提取資料、然後放入到資料庫。資料挖掘旨在對你手頭的資料進行預測和決策。

RapidMiner

RapidMiner擁有一大批客戶,包括貝寶、德勤、電子港灣和思科等,這是一款用于預測分析的出色工具。它功能強大、易于使用,還有一個優秀的開源社群。通過API,你甚至可以将自己的專用算法整合到RapidMiner中。

圖形化界面意味着,你不需要知道如何程式設計或不需要有博士學位,就可以使用其四款分析産品中的任何一款。

IBM SPSS Modeler

IBM SPSS Modeler提供了一整套專門用于資料挖掘的解決方案。這包括文檔分析、實體分析、決策管理和優化。其五款産品提供了一系列進階算法和技巧,包括文檔分析、實體分析、決策管理和優化。

SPSS Modeler是一款功能強大的解決方案,很适合滿足大公司的需要。它可以在幾乎任何類型的資料庫上運作,你可以将它與其他IBM SPSS産品整合起來,比如SPSS協作及部署服務和SPSS Analytic伺服器。

甲骨文資料挖掘

資料挖掘領域的另一大巨頭是甲骨文。作為其進階分析資料庫(Advanced Analytics Database)選件的一部分,甲骨文資料挖掘讓使用者可以發掘洞察力、進行預測并利用甲骨文資料。你可以構模組化型來發現客戶行為、鎖定最佳客戶并開發配置檔案。

甲骨文資料挖掘GUI讓資料分析員、業務分析員和資料科學家能夠使用一種相當優雅的拖放式解決方案,在資料庫裡面處理資料。它還能建立SQL和PL/SQL腳本,用于整個企業裡面的自動化、排程和部署。

Teradata

Teradata認識到這個事實:雖然大資料很出色,但如果你其實不知道如何分析和使用大資料,它就毫無價值。設想一下:擁有成千上萬個資料點,卻沒有查詢這些資料點的技能。這時候,Teradata應運而生。它為資料倉庫、大資料、分析及營銷等應用提供了端到端解決方案和服務。這一切意味着,你可以真正成為一家資料驅動型公司。

Teradata還提供一整套服務,包括實施、業務咨詢、教育訓練和支援。

FramedData

如果你着眼于某一種類型的資料挖掘,有一批初創公司專門幫助公司利用資料解答難題。如果你擔心使用者流失,我們推薦FramedData,這家初創公司可以分析你的資料分析結果,告訴你哪些客戶即将抛棄你的産品。

它是一款完全托管的解決方案,這意味着你沒必要做任何事,隻需等待洞察力呈現在面前。

Kaggle

Kaggle是世界上最龐大的資料科學社群。許多公司和研究人員釋出資料,來自世界各地的統計人員和資料挖掘人員競相制作最佳模型。

資料分析

資料挖掘旨在細查資料、尋找之前未發現的模式,資料分析則是對該資料進行分解,評估那些模式的影響。分析是指提出特定的問題,找到資料中的答案。你甚至可以提些關于将來會發生什麼方面的問題!

Qubole

Qubole可針對存儲在AWS、谷歌或Azure雲上的資料,簡化、加快和擴充大資料分析工作負載。它消除了管理基礎設施方面的麻煩。一旦IT政策實施到位,衆多資料分析員就可以随意地協作“點選查詢”,享用Hive、Spark、Presto及其他衆多資料處理引擎的功能。

Qubole是一款企業級解決方案。它提供免費試用服務,該軟體的靈活性确實讓它有别于其餘解決方案,它還是所有平台中最易于通路的。

BigML

BigML試圖簡化機器學習。它提供一項功能強大的機器學習服務,擁有易于使用的界面,以便你導入資料,并從中進行預測。你甚至可以使用其模型用于預測分析。

如果你想從BigML獲得最大的好處,深入了解模型無疑大有幫助,但并非必要條件。它有一款免費版工具,讓你可以建立16MB以下的任務,還提供按需付費方案和虛拟私有雲,可以滿足企業級需求。

Statwing

Statwing将資料分析帶到了新的水準,提供從漂亮視圖到複雜分析的各種功能。它很易于使用,實際上在5分鐘内就可以上手。

雖然不是免費使用,但價格方案相當優惠。基本套餐是每月50美元,你可以随時取消。這讓你可以使用無限制的資料庫(最多50MB)。還有其他的企業方案,讓你能夠上傳更龐大的資料集。

資料可視化

資料可視化公司讓你的資料栩栩如生。對任何資料科學家來說,挑戰一方面在于,将來自資料的洞察力傳達給貴公司的其餘人員。對你的大多數同僚來說,MySQL資料庫和電子表格不管用。可視化是傳達複雜資料洞察力的一種好方法。最棒的是,它們大多根本不需要程式設計!

Tableau

Tableau是一款資料可視化工具,主要側重于商業智能。你可以建立圖形、條形圖、散點圖及更多視圖,不需要程式設計。它最近釋出了一款Web連接配接件,讓你可以連接配接到資料庫或API,因而讓你能夠通過可視化呈現活動資料。

Tableau有五款産品,支援和功能程度不一。如果你是可視化方面的新手,我們推薦Tableau Public,這是其可視化工具的免費版。探究一番該工具,你應該會了解想要購買另外的哪款Tableau産品。

Silk

Silk是一款比Tableau簡單得多的資料可視化和分析工具。它讓你隻要點選幾下滑鼠,即可建立互動式地圖和圖形,因而為你的資料賦予活力。Silk還讓你可以與衆多人協作處理可視化。

與本文介紹的許多可視化公司一樣,Silk不需要你是程式設計高手。如果你是資料可視化方面的新手,可以從它入手,因為其最佳功能試圖自動可視化資料,你沒必要做事情。

CartoDB

CartoDB是一款資料可視化工具,專門用來繪制圖形。它讓你易于可視化位置資料,不需要任何程式設計。CartoDB可以管理衆多的資料檔案和類型,甚至還有供你搗鼓的示例資料集,以便逐漸了解。

如果你有位置資料,CartoDB絕對值得關注。它也許不是用起來最容易的系統,但一旦你掌握了用法,它功能異常強大。它提供了企業軟體包,支援項目協作和受控制的通路。

Chartio

Chartio讓你可以在浏覽器裡面合并資料源、執行查詢。隻要點選幾下,你就可以建立強大的儀表闆。Chartio的可視化查詢語言讓任何人都能從任何地方擷取資料,沒必要知道SQL或其他複雜的模型語言。它還讓你可以排程安排PDF報告,那樣你可以導出儀表闆,并以PDF檔案的格式通過郵件發給你想發送的任何人。

Chartio的另一個優點是,它常常不需要資料倉庫。這意味着,可以更迅速地搭建并運作起來;實施成本會更低、更易于預測。

Plot.ly

如果你想制作圖形,Plot.ly是不二的選擇。這個使用友善的平台讓你可以制作效果出衆的2D和3D圖形(你确實需要眼見為實!)。同樣根本不需要程式設計知識。

免費版讓你可以建立專有圖形和無限制的公共圖形,你還可以更新到企業軟體包,制作無限制的專有和公共圖形,另外還有這個選項:Vector導出和儲存自定義主題。

Datawrapper

我們介紹的最後一款可視化工具是Datawrapper。它是一款開源工具,可在幾分鐘内建立嵌入式圖形。由于是開源,它會不斷完善,因為任何人都可以為它貢獻代碼。它有一個出色的圖形庫,你可以看看别人用Datawrapper能制作出什麼樣的圖形。

類似這部分介紹的其他許多公司,它既有免費工具,也有收費工具,提供這一收費選項:預先安裝、定制的Datawrapper軟體包。

資料整合

資料整合平台如同每個程式之間的粘合劑。如果你想把使用Import.io提取的資料與推特整合起來,或者想在Facebook上自動共享之前用Tableau或Silk制作的可視化圖形,那麼下列整合服務正是你所需要的工具。

Blockspring

Blockspring是一種獨特的程式,其獨特之處在于,它可以利用Excel和Google Sheets等熟悉平台中的IFTTT和Zapier等服務的所有功能。你可以連接配接到一整批第三方程式,隻要編寫一個Google Sheet公式。你可以從電子表格釋出推特消息,檢視你的關注者在關注誰,并且連接配接到AWS、Import.io 和Tableau等。

Blockspring可免費使用,但也有企業軟體包,讓你可以建立和共享專有功能、添加自定義标記以便搜尋和發現,并且為你的整個企業同時設定API令牌。。

Pentaho

Pentaho提供大資料整合功能,不需要程式設計知識。使用一個簡單的拖放式使用者界面,你就可以整合許多工具,基本上不需要程式設計。它還提供嵌入式分析和業務分析服務。

Pentaho是一款企業解決方案。你可以要求免費試用其資料整合産品,到期後需要付費。

資料語言

在你的資料職業生涯中,有時一款工具根本無濟于事。雖然如今的工具變得功能更強大、更易于使用,但有時自行程式設計來得更好。即便你不是程式員,了解這些語言工作原理方面的基本知識還是讓你更清楚地知道許多這些工具是如何工作的、如何才能最有效地使用它們。

R

R是一種面向統計計算和圖形的語言。如果上述資料挖掘和統計軟體無法處理你想處理的任務,學習R是出路。實際上,如果你打算成為資料科學家,那就需要熟悉R。

它可以在Linux、Windows和MacOS上運作,你可以在此頁面(https://www.r-project.org)下載下傳R。有一個龐大的社群,如今許多統計人員使用R,它的人氣一直在飙升。

Python

在資料社群人氣越來越旺的另一種語言就是Python。該語言于80年代問世,以《蒙提派森之飛行馬戲團》(Monty Python’s Flying Circus)命名,它一向跻身于全球最受歡迎的十大程式設計語言榜單。如果資料收集工具未能獲得所需的資料,許多新聞記者使用Python編寫自定義抓取器。人們喜歡它,是由于它與英語很相似。它使用“if”和“in”之類的單詞,這意味着腳本閱讀起來很輕松。它提供了為不同類型的任務設計的一系列廣泛的庫

RegEx

RegEx(正規表達式)是一套可處理和更改資料的字元。它主要用于将模式與字元串比對,或字元串比對。在Import.io,你可以在提取資料的同時使用RegEx,删除字元串的一部分,或者保留字元串的某些部分。

處理資料提取工作時,它是一種很有用的工具,因為你在提取資料可以獲得所需的那部分資料,這意味着你沒必要依賴上述那些資料處理公司!

XPath

XPath是一種查詢語言,用于從XML文檔選擇某些節點。RegEx處理和更改資料标記,而XPath會提取準備用于RegEx的原始資料。

XPath最常用于資料提取。每當你點選某個資料,Import.io實際上自動建立XPath――你根本看不到它們!還可以插入你自己的XPath,從下拉式菜單擷取資料以及網頁上标簽頁裡面的資料。簡而言之,XPath是個路徑,它為網頁HTML的某個部分指明了方向。

資料收集

在你存儲、分析或可視化資料之前,你得收集一些資料。資料提取就是拿來結構化資料(比如網頁),然後将它轉換成結構化表。一旦你有了結構化資料,就能以各種方式來處理,使用我們提到的這些工具,找到洞察力。

Import.io

Import.io是用于提取資料的頭号工具。使用很簡單的點選式使用者界面,我們拿來網頁後,可以轉換成易于使用的電子表格,然後可以分析、可視化和使用該電子表格,做出資料驅動的決策。

除了托管一款免費使用的工具外,Import.io還是資料提供商。我們為每個客戶定制了資料集。随後,這些資料定期更新,這意味着貴公司始終獲得的是最新資料。

結語

感謝您的觀看,如有不足之處,歡迎批評指正。

為了幫助大家讓學習變得輕松、高效,給大家免費分享一大批資料,幫助大家在成為大資料工程師,乃至架構師的路上披荊斬棘。在這裡給大家推薦一個大資料學習交流圈:658558542 歡迎大家進×××流讨論,學習交流,共同進步。

當真正開始學習的時候難免不知道從哪入手,導緻效率低下影響繼續學習的信心。

但最重要的是不知道哪些技術需要重點掌握,學習時頻繁踩坑,最終浪費大量時間,是以有有效資源還是很有必要的。

最後祝福所有遇到瓶疾且不知道怎麼辦的大資料程式員們,祝福大家在往後的工作與面試中一切順利。

繼續閱讀