天天看點

樂逗進階資料分析師謝佳标:基于R語言的大資料處理及模組化技術

<b></b>

 wot2015"網際網路+"時代大資料技術峰會于2015年11月28日于深圳前海華僑城jw萬豪酒店盛大揭幕,42位業内重量級嘉賓彙聚,重磅解析大資料技術的點睛應用。秉承專注技術、服務技術人員的理念。dba+社群作為本次大會合作方,将通過圖文直播為大家全程跟蹤報道這場技術盛宴。   

正如馬雲所說:“大家還沒搞清pc時代的時候,移動網際網路來了,還沒搞清移動網際網路的時候,大資料時代來了。”在資訊時代,海量資料迎來了大爆發,也給大資料技術平台帶來了用武之地。

在深圳的【wot2015"網際網路+"時代大資料技術峰會】現場,wot特邀講師、樂逗遊戲進階資料分析師謝佳标,從r語言和大資料模組化等方面對大資料做深刻解讀。

謝佳标,樂逗遊戲進階資料分析師。主要利用r語言進行大資料的挖掘及可視化工作。第七屆、第八屆中國r語言大會的演講嘉賓。有超過八年的資料挖掘模組化經驗,從事過咨詢、電商、電力、遊戲等行業,了解不同領域的資料特點。有豐富的利用r語言進行大資料挖掘的實戰經驗。

謝佳标告訴筆者,遊戲公司獲得的資料量是相對較大的,資料次元比較多,資料源頭也難以把握,是以擷取到的資料是沒法直接用的,需要對資料做預處理。包括幾個部分:一是資料的缺失處理,如果有哪些字段缺失,需要通過機器學習的技術進行填補,有的樣本沒法通過預處理的話,會直接删除掉。預處理後,需要讀資料進行轉換,有的需要增加一個新的次元來達到資料分析的要求。

樂逗進階資料分析師謝佳标:基于R語言的大資料處理及模組化技術

那麼為什麼用r語言進行處理呢?謝佳标表示,r語言是開源的,内建了很多特有的函數模組化,并擁有衆多的拓展包。另外由于開源,我們可以看到函數背後的邏輯是怎樣的,每一個步驟是怎樣轉換和處理的。除此之外,在靈活性方面,r近幾年發展很快,很多新的模型、算法和研究等都納入進去,比如深度學習、社交網絡和一些較新的算法等。

在這個大資料技術爆發的時代,對于資料分析師的需求也迎來了大增長,資料分析師的職業前景也十分廣闊。謝佳标告訴筆者他從事資料相關工作已經有八九年,在這個領域總是有很多新東西要研究,能給人帶來很大的成就感和愉悅感。

在他看來,要成為一個優秀的資料分析師,首先要有态度,要保持一個認真的态度來對待。其次,要熟悉統計學知識,有很強的統計學知識或者數學邏輯的話,分析資料會更清晰有條理。最後,應該選擇适合自己的工具來實作資料分析。

筆者讓謝佳标為有志于從事r相關工作的人推薦文檔或者書籍。謝佳标表示學習r最佳的方法是看官網,因為官網有很多完善的幫助文檔。然後可以看一些入門書籍,比如《r語言實踐》《r語言程式設計藝術》都是比較好的入門書籍。

<b>本文來自雲栖社群合作夥伴"dbaplus",原文釋出時間:2015-12-01</b>

繼續閱讀