天天看點

《資料科學家修煉之道》一1.3 資料科學的誕生

本節書摘來異步社群《資料科學家修煉之道》一書中的第1章,第1.3節,作者: 【美】zacharias voulgaris(弗格裡斯)譯者: 吳文磊 , 田原 責編: 陳冀康,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

資料科學領域起源于揭示大資料中潛在的價值,以及克服之前提及的4個v的挑戰。這在過去是可以通過組合先進的現代計算裝置達到的。特别地,并行計算、複雜資料分析流程(主要是通過機器學習)以及低成本的強勁計算能力使這種需求變成可能。此外,在不遠的将來,不斷加快的it基礎架構以及技術進步将使我們可以産生、收集以及處理更多的資料。通過這些,資料科學可以憑借智能化應用以及發展和使用這些技術的創新能力在技術層面上處理大資料難題。這也就是說,大資料在一定程度上是可以被管理并至少能夠提供一些有價值的資訊,而這則是大資料是值得花時間精力投入進去的原因。

認識到資料科學并不是一種時尚是很重要的,而是在未來會得到迅速發展的領域。如果你曾是網際網路時代的一個it專家,你可能會覺得大資料僅僅是一個風潮或是一個奢侈品,但那些真正發現大資料的真實和潛在價值的人是可以從中發現其盈利的可能的。

想象一下成為第一批學習html、css和javascript的人,或者是第一個制作數字圖像用于網站設計的人。這就像拿着一張得獎的彩券,尤其是如果你對自己的工作非常在行的話。這就是今天的資料科學。如果沒有那麼多人分享大資料的收益,它現在也不會這麼出名。當然,大多數從業者和衆多學生并沒有注意到資料科學到底意味着什麼。

如果你了解了前文所述及的大資料的各種事實,你就應該能了解資料科學是用來應對日趨嚴峻的問題的解法。如我早前所說的那樣,這個問題反映了大資料的4個v屬性,使傳統方法陷入困境的屬性。由于技術發展,在未來10年,資料科學也必然會變得更加健壯完善、更加多樣。已有一些研究項目在全球出現[2],也同時有許多業内知名的研究者發表關于資料科學主題的論文。這并不是巧合,它表明了基礎架構知識以及如何操作的發展趨勢,而這些也會滋養這個領域的發展。至于資料科學的誕生時間已經不可考了(有一些人在這個領域的研究已經超過好幾十年了),但第一次在正式會議中吸引關注是1996年在ifcs發表的《資料科學、分類以及相關方法》(data science,classification and related methods)。直到2005年,“資料科學家”這個名稱才第一次出現在文章中。特别是,在文章發表的那 年[3],資料科學家被定義為“資訊和資料科學家、資料庫及軟體工程師以及程式員、學科專家、博物館館長和專業注解者、圖書館管理者、檔案管理者以及其他一些對成功管理數字化資料集的關鍵人物”。在2009年6月,資料科學家這一職務的重要性變得更加明顯,正如nathan yau在flowingdata發表的文章《資料科學家的崛起》(rise of the data scientist)一文中說的那樣[4]。自此,在資料科學方面的文章和引用得以快速增長。看看現在有多少會議是以這個名義組織的,這不隻發生在學術界,同樣也發生在工業界。不僅如此,由于許多在各自領域處于上司者的大公司(如亞馬遜)都在各自的工作流程中使用了資料科學,這個趨勢很可能會持續下去。同樣,由于資料科學家這個職位适合于千變萬化的資料世界需求,它也正變得包含許多新特征(如前沿資料分析技術的應用),而不再是一些原始需求了。

繼續閱讀