天天看點

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

董飛是矽谷華人工程師裡的“熱門人物”, 大學南開大學、碩士杜克大學計算機系畢業。在攻讀碩士期間,即從事跟hadoop大資料相關的研究項目。先後在創業公司酷迅,百度基礎架構組,amazon雲計算部門,linkedin擔任進階工程師,負責過垂直搜尋引擎、百度雲計算平台研發、廣告系統和線上教育平台的架構的設計和研發。在大資料領域業界研究多年,涉及hadoop調優、分布式架構、data pipeline、實時系統等技術。

董飛2015年在矽谷創業公司coursera從事資料工程師工作,對于矽谷公司的大資料應用方面有着豐富的實戰經驗。本文是對他去年任職coursera時所發表的一次演講的整理文,主要介紹了coursera及其架構演變,探讨了矽谷大資料熱點與相關技術。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(董飛)

董飛首先介紹了coursera, 由美國斯坦福大學計算機科學教授 andrew ng和daphne koller創辦,旨在同世界頂尖大學合作,線上提供免費的網絡公開課程,coursera目前已經有117所大學提供的988門課程,已經有超過一千二百萬學習者使用過。作為熱門的線上教育項目,coursera成功為學習者和課程提供方搭起了橋梁。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

coursera還與世界頂尖大學,例如斯坦福大學、密歇根大學、普林斯頓大學、賓夕法尼亞大學等都建立了深度合作關系,頒發證書認證。董飛表示,“大約30%的學者願意付費購買證書,70%的vc使用者則将這些證書釋出到linkedin上,這為大家帶來了雙赢價值”。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

coursera推出的課程種類繁多,其中有一項叫“專項課程”,它也是coursera最主要的收入之一。”專項課程“的成功之處在于:

60%的學習者表示他們學習“專項課程”的動機 是通過“畢業項目”和“專項課程簽名認證證書”來展示 他們對知識的掌握程度。

74%的學習者認為“畢業項目”比理論課程 更具價值,理由是他們希望利用“畢業項目”來解決實際 問題,同時獲得行業實踐經驗。

77%的學習者則認為由行業從業人員和授課教 師共同設計和實施“畢業項目”,比單單由授課教 師設計更有價值。

coursera課程研究:靠資料來說話  

coursera針對課程類别、各個國家以及不同領域的使用者情況進行了資料統計和統計。 如下圖資料顯示:其中選擇人文類的使用者數最多,計算機科學次之,排在最末的是臨床科學,這也說明其較為冷門。【注:括号裡代表的是這門課程的門數】

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(不同課程内容分類:橫坐标表示的是注冊人數,注冊人數越多,說明它越有吸引力。)

通過下圖可以看出:紅色代表是受歡迎度,顔色越深說明它關注度越強,比如美國、加拿大、中國香港等這些大學關注度比較高; 藍色代表的是冷門,顔色越深說明它沒有關注度,或者叫負相關度,比如法國。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(各國大學關注度)

學習者主要分為四種類型:

第一類:大學生,求知型,平均年齡15歲-20歲;

第二類:終生學習者(enrichment learners),年齡分布較為均勻;

第三類:特定技能學習者(有點像極客),他們更喜歡接受新技術,尤其是20歲到30歲中間的人居多;

第四類:商業發展或升職技能,比如有人想晉升或者想換個行業,這類使用者會選擇某個特定領域進行學習。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(學者領域分布圖)

coursera的技術架構 

作為一家矽谷的線上教育項目創業公司,coursera員工數約為180人,其中技術人員是80人左右,占比40%。coursera擁有1000萬名學習者(這個使用者數還在不斷增長),面對全球不同時區的使用者,如何保證最佳的使用者體驗?

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

在資料庫的選擇上,coursera最初采用的是mysql,但遇到的問題是,在高并發通路量和當機時候會造成使用者體驗的大幅下降,于是coursera将資料庫遷移至cassandra,其穩定性和易用性還不錯。

在程式設計語言使用上,coursera則選擇了scala。scala面向對象,基于scala可以調用所有jvm上面的東西, 雖然這聽起來很酷,但很多公司還是不敢用。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(coursera技術架構圖)

coursera底層架構100%部署于aws上,因為 coursera的大多數使用者通路來自于(pc)web,但後來為了改進手機端的使用者體驗,工程師們利用 swift來重寫app。

對于為何采用使用soa?董飛認為,首先soa架構能夠做到彈性擴充,其次在于服務優先級,重用,簡化,希望通過這種模式去推動整個技術的更新。” 矽谷有很多公司在使用soa,包括 tumblr、box、linkin、netflix、amazon、ebay等。”

“而采用rest架構的好處在于:所有api可外部化,易于調試,零技術鎖定”。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析
Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

(coursera架構中用到的軟體)

随後,董飛還和與會者交流了時下在矽谷的大資料應用浪潮和熱門技術。

Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析
Linkedin資深工程師董飛:典型矽谷公司大資料實戰分析

gartner公司每年釋出技術趨勢炒作圖。2015年和2014年的圖對比顯示,物聯網、自動駕駛汽車、消費級 3d 列印、自然語言問答等概念正在處于炒作的頂峰。而大資料已從頂峰滑落,nfc和雲計算接近谷底。

來源:csdn

<b></b>

<b>本文來自雲栖社群合作夥伴"dbaplus",原文釋出時間:2016-04-05</b>

繼續閱讀