天天看點

預告:從世界冠軍到資料科學家 他在挖什麼? | 硬創公開課

資料挖掘的英文叫data mining,mine有“礦”的意思。是以做資料挖掘的學者們常常戲稱自己為“礦工”。不過,其實資料挖掘的研究過程與采礦确實有異曲同工之妙。資料的收集、篩選、分析和應用,正如礦石的勘探、開采、提純和使用一樣,每個步驟都看起來都是大海撈針,但在合适的方法下,這些“針”又每次都能被恰如其分的挖掘出來。

大資料這個詞我們聽得太多了,可是很少有人意識到,随着網際網路的發展,今時今日的這些“大”字究竟已經意味着一種什麼樣的量級。除去少數嘩衆取寵的使用這個詞的公司外,那些真正擁有大資料的企業,經手和處理的都是一些普通人可能窮極一生也接觸不到的數字:微信朋友圈每天會上傳10億張圖檔,支付寶日交易額峰值超過200億元人民币,京東每天上傳幾百萬張新的商品資訊圖……

這些數字對于急需資料訓練的人工智能算法來說是莫大的好消息。也意味着資料對于人工智能的重要性正在随着計算能力、算法的發展而呈直線上升。但是怎麼在浩如煙海的資料中篩選出對我們真正有用的那些?又如何通過分析這些資料做出對自身有利的決策?這就是資料科學家們做的事了。

預告:從世界冠軍到資料科學家 他在挖什麼? | 硬創公開課

本期硬創公開課,我們邀請到了ipin的首席科學家潘嵘,他曾獲得2005年全球最進階别資料挖掘大賽kddcup的世界冠軍,也在科研和産業領域都積累了相當豐富的經驗,本周四下午3點,就讓潘嵘老師來為我們講講,一個合格的資料科學家是怎樣煉成的。

本文作者:魏秀參

繼續閱讀