天天看點

成為大資料工程師需要哪些技能?(一文秒懂大資料)

2008年,維克托·邁爾-舍恩伯格編寫的《大資料時代》開啟了科學技術的一個新的篇章,讓“大資料”一詞變得家喻戶曉,人人都在談論大資料,各科技公司也紛紛引入大資料技術。那麼,到底什麼是大資料?

大資料(big data),是指無法在一定時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,是需要新的處理模式才能獲得更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資産。在《大資料時代》中,維克托提出了不用随機分析法(抽樣調查)的捷徑,而是對所有資料進行分析處理的大資料分析新概念。之後,IBM也提出了大資料的5V特點:volume(大量)、velocity(高速)、variety(多樣)、value(低價)、veracity(真實性)。

這麼說也許有些抽象,舉個例子,我們每天都會浏覽網頁、網上購物、點外賣、刷抖音、追網劇、看頭條,凡是你指尖劃過的地方,都會留下資料。這些資料紛亂龐雜,卻隐含着你的行為習慣、購買傾向、消費能力等資訊。如何從中找出隐藏的關聯,挖掘出有用的資訊,形成商家對使用者的精準畫像,是非常關鍵的一步,在此基礎上衍生出的算法技術,我們常常稱為大資料技術,包括資料的收集、分析、挖掘、衍生,等等。

轉眼間,大資料技術已經走過了10個年頭,熱度依然不減,如今又與人工智能強強聯合,掀起了第四次工業革命的新浪潮。在大資料技術日臻成熟之後,我們再回過頭來看看,到底什麼是大資料?

大資料是一個以資料為核心的産業,是一個圍繞大資料生命周期不斷循環往複的生産過程,同時也是由多種行業分工和協同配合産生的一個複合性極高的行業。大資料的生産流程從資料生命周期的傳導和演變上可以分為以下幾個部分:資料收集、資料存儲、資料模組化、資料分析、資料變現。

大資料有多重要?吳軍在《智能時代:大資料與智能革命重新定義未來》一書中提到:“在這個大資料時代,誰從冗雜的大資料中摸清了蘊藏其下的規律,誰就掌握了财富。”這是對大資料價值的高度概括,也是對未來大資料應用的極目前瞻。

随着對大資料技術的了解和應用,我們開始通過各種軟體收集資料,通過網絡進行傳輸,通過雲資料中心進行存儲,通過資料科學家或者行業專家進行模組化和加工,最後通過資料分析得到某種知識或者結論,獲得了一種通過資料洞悉世界的能力。

于是,原本錯綜複雜的資料之間的潛在關系漸漸清晰,大量孤立、多源資料交織融合後顯得更為有趣,大量看似無關的事情在經過分析後呈現出更多的因果,這些因果聯系能夠讓我們在更多方面推測未來趨勢,減少試錯機會,降低成本和風險,進而提高勞動生産力。這是大資料技術帶給我們最根本的價值和意義。

我們經常會發現,在網上購物時,電商推薦的商品往往是我們非常感興趣的,仿佛電商比我們自己更了解自己。浏覽新聞時,首頁内容也往往會是自己比較傾向于閱讀的,每個人似乎都擁有了為自己量身打造的頭條。出現這些“神奇”現象的原因,都是這些app記住了我們的浏覽曆史,它們根據這些資訊了解我們的偏好,為我們推薦最比對的内容。

了解了大資料技術的原理,我們再來看看成為一名大資料工程師究竟需要哪些技能。一般而言,大資料技術包括三個方向,大資料架構、大資料分析和大資料開發。

大資料架構主要關注Hadoop、Spark、Storm等大資料架構的實作原理、部署、調優和穩定性問題,以及它們與Flume、Kafka等資料流工具以及可視化工具的結合技巧,再有就是一些工具的商業應用問題,比如Hive、Cassandra、HBase、PrestoDB等。用辯證的技術觀點進行組合使用,達到軟/硬體資源利用的最大化,服務提供的穩定化,這是大資料架構人才的目标。大資料架構師主要關注架構理論、資料流應用、存儲應用、軟體應用和可視化應用等方面的内容。

大資料分析關注的是資料名額的建立、資料的統計、資料之間的聯系,以及資料的深度挖掘和機器學習,并利用探索性資料分析的方式得到更多的規律、知識,或者獲得對未來事物進行預測和預判的能力。大資料分析主要研究資料庫應用、資料加工、資料統計和資料分析等。

大資料開發關注的是伺服器端的開發、資料庫的開發,呈現與可視化、人機互動等銜接資料載體和資料加工各個單元,最終實作使用者的功能落地。大資料開發主要研究資料庫開發、資料流工具開發、資料前端開發、資料擷取開發等。

PS:如果你也想成為一名大資料工程師,不妨現在就朝着這些方向努力吧!

相關文章

FinTech領域的風險控制——風險篇

如何建構健全的信用評估體系

風控的進化——從傳統風控到智能風控

風控體系的一般架構

現金貸業務的風控體系

繼續閱讀