天天看點

2016美國大選預測失敗意味着什麼?14位專家幫你分析資料科學的未來

2016美國大選預測失敗意味着什麼?14位專家幫你分析資料科學的未來

本文中一共采訪了14位資料科學和預測分析領域的專家。除了表示大資料和預測分析技術将在2017年度得到更大的發展之外,他們普遍提到了通過大資料分析對2016美國總統大選結果預測失敗一事,表達了目前預測分析技術的局限,以及對于原始資料可靠性的擔憂。

以下由雷鋒網編譯,未經授權禁止轉載。

1. kirk d. borne,booz allen hamilton咨詢公司首席資料科學家,天體實體學博士,資料科學領域頂尖的影響力人物。

2016年,我看到了下面幾項和資料科學相關的重大發展:

1) 随着更多自主分析工具的出現,誕生了更多的平民資料科學家。 2) 深度學習技術被應用在越來越多的領域,包括文本分析。 3) 由人工智能驅動的智能聊天機器人開始在一些客服中心和售後中心試點。 4) 越來越多的企業/機構開始認識到大資料和資料科學帶來的現實回報,從以往的“概念驗證”(proofs of concept)逐漸轉向了“價值驗證”(proofs of value)。 5) 人工智能開始成為産品設計和生産過程中的重要技術組成,并且廣泛出現在:車聯網、物聯網、智慧城市、制造業、供應鍊和機器保養等諸多領域。

在2017年,我認為邊緣分析将與機器學習相結合(機器學習可以通過api接入或嵌入資料收集終端,甚至整合到傳感器晶片架構中),推動邊緣分析技術得到更廣泛的應用。在這種趨勢下,發生在系統前端(而不是雲端)的各種突發狀況将得到更好、更快速的實時分析,包括網絡安全、數字營銷、客戶體驗、醫療保健、發動機性能、自動駕駛和供應鍊等諸多領域都将獲益。

2016美國大選預測失敗意味着什麼?14位專家幫你分析資料科學的未來

tom davenport

2. tom davenport,波士頓大學特聘教授,國際資料分析研究所聯合創始人,deloitte會計師事務所進階顧問。

2016年的主要發展:

1) 資料分析分散化:經過一段時間的發展,各組織機構開始将資料分析業務分散到各個業務部門和職能部門,而不再将所有的資料分析任務集中于一點,這在許多情況下需要組織機構具有良好的協同工作能力。 2) 專有和開源技術互相整合:許多大型公司都在同時使用專有和開源相結合的大資料分析技術。 3) 認知分析技術的離散化:大的、單一的認知技術已經被分解為一系列的單功能api,這些api可以被用來組合形成一個完整的系統。 4) 各崗位職責的模糊化:定量分析師、資料分析師和認知應用開發者們之間的職責界限變得越來越模糊,一個人需要同時具備應用開發能力和資料分析能力的情況越來越多。

2017年可能出現的變化趨勢:

1) 認知分析實用化:認知分析将從以往的“科學項目”逐漸轉向實際應用。 2) 模型假設的質疑:對2016年美國總統大選結果的預測失敗,将引發更多的管理者開始質疑分析模型背後的假設是否合理。 3) 認知分析工具類别化:更多的組織機構開始了解各種認知分析工具的異同,并對其進行分類,以便更合理地将其應用于具體的業務問題。 4) 分析算法的透明化:各大具有影響力的機器學習開發者将持續推動認知分析算法的透明化,并避免使用非開源的算法。

3. tamara dull,sas(statistical analysis system)公司高新技術研發主管。

我認為今年在大資料領域最重要的事情就是美國大選,雖然大部分利用大資料分析的預測結果最終被證明是錯誤的,但正是因為這件事的影響,普通群眾開始探讨大資料、資料科學、預測分析等一些專業詞彙。我們與大資料分析進行了一次廣泛的親密接觸:包括資料的價值、資料的合理應用和濫用。

随着大資料持續滲透到我們工作和生活的方方面面、物聯網的發展,對于各大公司群組織結構來說,確定資料的合理、安全和道德的使用,将成為一個越來越重要的課題。如果一家公司不懂得合理使用資料,那麼他們的發展也不會長久。

4. john elder,美國最大的分析咨詢公司elder research的創始人兼董事長。

一年之前,科學雜志曾将一項研究評選為“2015年度科學突破”第二名,該研究試圖重制幾年前發表在心理學雜志上的100個頂級實驗。但實際結果是,因為相關材料上記載的試驗資料和流程錯誤很多,一般正确率大約隻有5-35%不等,造成研究人員隻成功重制了其中39個。我認為,類似于這樣的由于原始資料本身的錯誤引發的虛假相關性結果并不在少數。将來,在科研人員和資料挖掘軟體的幫助下,使用重複采樣的辦法(如目标重排)替換那些過時的重點公式,或許能更好地揭示随機事件的内在規律。當然,新的分析方法同樣也需要出版和推廣,但結果将更加可靠,不但幫助廣大科研人員節省了大量的科研資源,同時還可能挽救許多病患的生命。

2016美國大選預測失敗意味着什麼?14位專家幫你分析資料科學的未來

anthony goldbloom

5. anthony goldbloom,知名資料科學競賽平台kaggle的聯合創始人兼ceo。

資料科學已經對airbnb,climate集團(現在的monsanto)和opendoor這樣的公司産生了巨大影響。在2017年,他們強大的資料科學團隊将繼續對公司的重大決策産生影響。一個共同點是,這些公司都通過采用分析工具和優化分析流程的方式解決了資料科學方面的諸多痛點:包括資料流的共享和協作,以及如何将分析模型投入實際的業務産品。在2016年,學術研究的熱門話題從深度神經網絡轉移到了強化學習和生成模型(generative models)。

2017年,我們将會看到更多資料科學方面的先進技術應用于現實業務的例子。例如将增強學習引入算法交易和廣告定位。

6. thomas joseph,雲服務供應商quadrant 4公司的首席資料科學家。

雖然包括谷歌、亞馬遜和facebook在内的大資料“開拓者”,以及少數幾家在早期就投入到大資料研究領域的公司目前正在通過數字化的大潮收獲實質性的好處。但現實情況是,仍然存在大量的公司正在觀望,尚未投入到大資料帶來的數字化轉型。我認為2017年一個最大的趨勢就是:大資料和數字化将逐漸成為一個“大衆化”的方式,被越來越多的企業重視。不過在初始階段,這些企業投入資料科學的業務領域會相對較小,他們首先會通過小範圍的嘗試搞清楚資料科學究竟能為公司帶來什麼好處,然後再考慮是否将其大面積推廣并制度化。從我們與許多客戶的合作中可以看到,2017年将成為資料科學領域的一個爆發年。

7. salil mehta,數學與統計學領域的暢銷書作者,統計學家,奧巴馬政府問題資産救助計劃(tarp)的參與成員。

2016年是資料科學大爆發的一年,大資料開始步入普通大衆的視野。在2016年美國總統大選中(雖然最終未能預測成功),利用社交網絡上公開釋出的資訊預測現實生活的做法開始為人所知。同時,無論是公司層面(例如facebook的視訊名額或其在中國的審查工具)還是個人層面(被篡改的reddit評論或twitter上的虛假新聞),特别是選舉預測失敗之後,人們開始意識到如何判斷資料的真實、可靠是何等重要。而且,一些大型的科技公司是否值得信任,能夠為每個人平等安全地提供差異化的資料使用規則,也值得考量。

8. carla gentry,talent分析公司首席資料科學家。

十幾年來,人力資源方面的工作都在通過hr個人的考察或者簽署擔保協定的方式來確定公司招攬到了具有真才實學的人,不但沒有絲毫的改進,而且由此引發的人員摩擦和公共資源浪費也越來越多。

現在,一些公司已經通過資料科學和預測分析的方法對傳統的人才招攬方式進行了優化,但遺憾的是整體力度和廣度還遠遠不夠。我認為,2017年使用大資料分析考察勞動力就業資格的方式将越來越普及,那些看到這一點的公司會在短期内得到回報,而那些繼續遵循舊的人才招攬方式的企業,經營将越來越困難。

9. pasha roberts,talent分析公司首席資料科學家。

企業通常都是依靠工業界或者醫學界的心理學家們來解決員工的心理問題,這項工作大部分的内容包括設計測試問卷和選擇教育訓練課程等。不過最近一段時間,在工業界和醫學界的心理學社群出現了一種全新的方式,即采用純統計學的思路,利用更多的卡方檢驗,更少的auc計算。我認為這種方式非常值的推廣,有時候可以使用更多的資料科學和預測分析的方法。

可以很明顯地看到一種趨勢:一些心理學社群正在接受機器學習和現代資料科學的歸納方法。這是大資料領域一個令人激動的應用,我們希望看到這一趨勢在2017年發展壯大。

10. gregory piatetsky-shapiro,kdnuggets董事長,kdd峰會聯合創始人,acm sigkdd聯合創始人和前任主席。

我在2016年看到兩個具有裡程碑意義的資料科學相關活動。

1. deepmind alphago戰勝圍棋世界冠軍李世石,是深度學習領域裡一次裡程碑式的勝利,同時也指導我們在更多具有豐富資料積累的領域取得更大進步。 2. 2016年美國大選的預測失敗(以及類似的英國退歐的預測失敗)提醒我們資料科學和預測分析在處理小資料,以及人類行為和隐性偏差時的局限性。2017年,我希望深度學習在更多資料積累豐富的領域取得成功,并希望資料科學家們從美國大選的預測失敗中汲取經驗教訓。

11. karl rexer,rexer分析公司董事長。

2016年,我們看到可用于顯示各種資料類型和預測分析結果的圖形化展示項目正在變得越來越豐富。和從前的條形圖和折線圖相比,這些全新的展示方式進步了太多。

2017年,預測分析領域可能會因為此前美國大選的預測失敗進入一個短暫的低潮期。剛剛進入這一領域的新公司和機構可能會感到前所未有的壓力,甚至對整個行業産生懷疑。我希望整個行業能夠在2017年通力合作,更努力地向人們證明預測分析和資料科學的價值。

2016美國大選預測失敗意味着什麼?14位專家幫你分析資料科學的未來

bill schmarzo

12. bill schmarzo,大資料領域知名作家,戴爾emc服務cto,usf執行會員,前雅虎資料分析業務副總裁。

2016年資料科學和預測分析領域最重大的事情可能就是2016年美國總統大選的預測失敗了。曾經在2008年和2012年兩次成功預測了美國總統大選結果的資料大神nate silver今年竟然連續在9個州預測失敗,這不禁令人大跌眼鏡。雖然目前我們幾乎可以在所有行業群組織機構看到資料科學和預測分析的應用,但這次大選預測的重大失敗,不得不引發整個資料行業的深思。

2017年,針對物聯網行業的炒作将會繼續,隻有那些搞清楚物聯網會在哪些方面、以怎樣的方式獲得商業價值的公司才能取得間歇性的發展。強調“智能”而不是“連接配接”的業務架構将勝出,取代那些沉溺于各種不同的物聯網連接配接技術,執着于創造連接配接的公司。其實說到底,就是回答一個最簡單的問題:你打算如何利用物聯網技術助力于企業的既有商業模式?

13. eric siegel,predictive analytics world(預測分析世界)會議創始人。

通過最近兩年與相關行業人士的交流,我認為預測分析技術在2017年将會進一步滲透到各個垂直領域,包括銷售和營銷、市場調研、電子商務,環境保護、金融服務、保險、新聞媒體、醫療保健、政府機構、人力資源、旅遊、房地産、法律等等。同時,根據市場機會,predictive analytics world已經在醫療、政府機構和金融服務等領域擴大了覆寫深度,預測分析和資料科學的擴張趨勢是不可阻擋的。

14. james taylor,decision management solutions(決策管了解決方案)公司ceo。

我認為2016年大資料領域最大的發展趨勢就是:從業者普遍接受了機器學習和ai技術,而且開源語言分析工具相比于專有工具取得了絕對的勝利。這些技術進步成為了整個行業的前沿和中心,并且左右着企業的重大投資和戰略決策。

關注預測分析技術造成了一個2017年最顯著的發展趨勢:将重點從“我們可以建立一個更好的分析模型”轉移到“我們如何通過預測分析來改善業務”,即預測分析領域的商業價值鍊得到了完善。這意味着會有越來越多的企業投身于商業認知的提升,使用決策模組化作為執行個體,将分析模型部署到産品系統,以及所有相關的組織架構調整。

【兼職召集令!】

如果你對未來充滿憧憬,喜歡探索改變世界的科技進展,look no further!

我們需要這樣的你:

精通英語,對技術與産品感興趣,關注人工智能學術動态的蘿莉&萌妹子&技術宅;

文字不求妙筆生花,但希望通俗易懂;

在這裡,你會收獲:

一群來自天南地北、志同道合的小夥伴;

前沿學術科技動态,每天為自己充充電;

更高的生活品質,翻翻文章就能掙到零花錢;

有意向的小夥伴們把個人介紹/履歷發至 [email protected],如有作品,歡迎一并附上。

本文作者:恒亮

繼續閱讀