天天看點

大資料人才培養經驗分享

1.1 大資料相關政策背景

2015年中央政府工作報告提出制定“網際網路+”行動計劃,大資料作為“網際網路+”行動計劃的重要組成部分,已成為新一代資訊技術變革的核心。在工作報告中提出要全面鼓勵技術創新,保護發明創造,同時還提出企業是技術創新的主體,鼓勵和支援企業主導的産學研協同創新,大力發展衆創空間,增設國家自主創新示範區,辦好國家高新區,發揮集聚創新要素的領頭羊作用。

同時,國務院還對外釋出了《促進大資料發展行動綱要》,明确指出,資訊技術與經濟社會的交彙融合引發了資料迅猛增長,資料已成為國家基礎性戰略資源,大資料正日益對全球生産、流通、配置設定、消費活動以及經濟運作機制、社會生活方式和國家治理能力産生重要影響。目前,我國在大資料發展和應用方面已具備一定基礎,擁有市場優勢和發展潛力,但也存在創新應用領域不廣等問題,亟待解決。

為推動我國大資料産業持續健康發展,實施國家大資料戰略,落實國務院《促進大資料發展行動綱要》,按照《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》總體部署,2017年1月,工業和資訊化部正式釋出了《大資料産業發展規劃(2016-2020年)》(工信部規〔2016〕412号,以下簡稱《規劃》)。

2016年2月,教育部公布新增的“資料科學與大資料技術”專業(代碼080910T),北京大學、對外經濟貿易大學、中南大學成為首家獲批高校。時隔一年,2017年3月,教育部公布第二批“資料科學與大資料技術”專業獲批的32所高校。2018年3月,教育部公布第三批“資料科學與大資料技術”專業獲批的250所高校。2019年3月,教育部公布第四批“資料科學與大資料技術”專業獲批的203所高校。截止到2019年3月,我國已有488所高校獲批該專業。該專業強調培養具有多學科交叉能力的大資料人才,重點培養具有以下三方面素質的人才:一是理論性的,主要是對資料科學中模型的了解和運用;二是實踐性的,主要是處理資料的能力。三是應用性的,主要是利用大資料的方法解決具體行業應用問題的能力。

2016年9月,教育部公布新增“大資料技術與應用”專科專業(代碼610215)),截止到2019年1月,全國已經有409所高職院獲批該專業。 該專業強調培養具有大資料實踐能力的大資料人才,重點培養具有以下兩方面素質的人才:一是工具的掌握,掌握資料采集和資料分析的基本工具;二是資料分析能力,掌握實用資料分析和初步資料模組化能力。

在交叉學科方面,2018年教育部準許了首批5所高校建設“大資料管理與應用”專業, 2019年3月該專業新增25所高校。

1.2 人工智能相關政策背景

2017年7月8日,國務院釋出了《國務院關于印發新一代人工智能發展規劃的通知》(國發〔2017〕35号),戰略目标分成三步走:

第一步,到2020年人工智能總體技術和應用與世界先進水準同步,人工智能産業成為新的重要經濟增長點,人工智能技術應用成為改善民生的新途徑,有力支撐進入創新型國家行列和實作全面建成小康社會的奮鬥目标。新一代人工智能理論和技術取得重要進展。大資料智能、跨媒體智能、群體智能、混合增強智能、自主智能系統等基礎理論和核心技術實作重要進展,人工智能模型方法、核心器件、高端裝置和基礎軟體等方面取得标志性成果。人工智能産業競争力進入國際第一方陣。初步建成人工智能技術标準、服務體系和産業生态鍊,培育若幹全球領先的人工智能骨幹企業,人工智能核心産業規模超過1500億元,帶動相關産業規模超過1萬億元。人工智能發展環境進一步優化,在重點領域全面展開創新應用,聚集起一批高水準的人才隊伍和創新團隊,部分領域的人工智能倫理規範和政策法規初步建立。

第二步,到2025年人工智能基礎理論實作重大突破,部分技術與應用達到世界領先水準,人工智能成為帶動我國産業更新和經濟轉型的主要動力,智能社會建設取得積極進展,新一代人工智能理論與技術體系初步建立,具有自主學習能力的人工智能取得突破,在多領域取得引領性研究成果。人工智能産業進入全球價值鍊高端。新一代人工智能在智能制造、智能醫療、智慧城市、智能農業、國防建設等領域得到廣泛應用,人工智能核心産業規模超過4000億元,帶動相關産業規模超過5萬億元。初步建立人工智能法律法規、倫理規範和政策體系,形成人工智能安全評估和管控能力。

第三步,到2030年人工智能理論、技術與應用總體達到世界領先水準,成為世界主要人工智能創新中心,智能經濟、智能社會取得明顯成效,為跻身創新型國家前列和經濟強國奠定重要基礎,形成較為成熟的新一代人工智能理論與技術體系。在類腦智能、自主智能、混合智能和群體智能等領域取得重大突破,在國際人工智能研究領域具有重要影響,占據人工智能科技制高點。人工智能産業競争力達到國際領先水準。人工智能在生産生活、社會治理、國防建設各方面應用的廣度深度極大拓展,形成涵蓋核心技術、關鍵系統、支撐平台和智能應用的完備産業鍊和高端産業群,人工智能核心産業規模超過1萬億元,帶動相關産業規模超過10萬億元。形成一批全球領先的人工智能科技創新和人才培養基地,建成更加完善的人工智能法律法規、倫理規範和政策體系。

2003年,北京大學(分數線,專業設定)創辦了國内第一個“智能科學與技術”大學專業,人工智能方向的大學教育受到越來越多關注。教育部公開資訊顯示,截至2017年12月,全國共有71所高校圍繞人工智能領域設定了86個二級學科或交叉學科。

繼2017年中國科學院大學、西安電子科技大學等高校設立人工智能學院之後,2018年,清華大學(分數線,專業設定)、哈爾濱工業大學、上海交通大學、南京大學、重慶郵電大學等一批高校也紛紛設立人工智能學院、人工智能研究院。截至2018年7月,我國進行人工智能相關研究、開設人工智能相關專業的院校共有89所。

2019年3月,教育部準許了35所高校建設“人工智能”新專業資格, 同時還有96所高校獲批“智能科學與技術”專業,101所高校獲批“機器人工程”專業。

1.3 大資料産業需求

根據IDC報告,2019年全球大資料市場規模将達到1250億美金,中國在全球大資料市場占比将超過8%(超過650億人民币)。考慮到和大資料相關的行業軟體、解決方案、服務和硬體,整個大資料市場規模在2019年将達到幾千億的規模,每年都在以非常快的速度遞增。

根據麥肯錫全球研究院的報告,中國未來3-5年内需要有180萬人從事大資料相關的崗位,目前大約有150萬人才缺口。各個行業都急需大資料人才,特别是熟悉大資料采集加工處理和深度學習模組化的大資料工程人才:大資料工程師;熟悉行業知識和大資料的交叉複合型人才:大資料分析師;以及熟悉分布式、多線程和海量資料的大資料JAVA全棧工程師。

1.4 人工智能産業需求

根據Gartner最新釋出的預測報告,2018年全球人工智能市場規模将高達1.2萬億美元,較2017年增長70%之多。2022年人工智能驅動的商業價值将高達3.9萬億美元,其中決策支援/增強(例如DNN深度神經網絡)2018年占據市場總規模的39%,2022年占據44%,虛拟助理(2018年46%,2022年26%),智能産品(2018年18%,2022年14%),決策自動化系統(2018年2%,2022年16%)。

根據來自Linkin的資料,截至2017年第一季度全球人工智能領域專業技術人才數量超過190萬,其中美國人工智能領域專業技術人才總數超過85萬,高居榜首。中國人工智能領域專業技術人才總數超過5萬人,排在全球第7位。印度、英國、加拿大、澳洲和法國分列2-6位。截至到2018年10月,全球擁有深度學習技能的人才超過9.5萬,其中中國擁有超過5000人,同樣排在全球第7位。

根據産業界的資訊,未來3到5年我國人工智能人才缺口超過500萬人。

2.1 大資料主要人才需求

1)算法工程師:實作具體商業過程中算法的落地和優化(依賴算法軟體工具,圖形化或API),比如精準營銷算法工程師、商業分析算法工程師、音/視訊算法工程師、圖像處理算法工程師、計算機視覺算法工程師、通信基帶算法工程師、信号算法工程師、射頻/通信算法工程師、自然語言算法工程師、搜尋算法工程師

2)大資料工程師: 主要負責大資料采集、加工、處理、海量資料存儲、資料可視化、BI報表、機器學習/深度學習(依賴算法軟體工具,圖形化或調取API)等。

3)大資料分析師:主要負責營運或資料分析工作,以圖形化托托拉拽為主(本身對技術了解不深入,主要依賴工具),涉及到資料處理、統計分析和機器學習等。

2.2 大資料核心領域關鍵詞

1) 機器學習/深度學習/統計分析/資料挖掘

2) 離線分布式計算/實時計算/流計算/複雜事件處理

3) 資料可視化/網際網路資料爬取/離線分布式開發……

4) 資料采集/資料加工/資料處理/資料同步/海量資料存儲/BI報表……

5) 資料統一存儲/資料統一管理/資料安全統一管理

6) 安全沙箱/資源隔離/資源排程/遠端方法調用/分布式存儲……

7) TensorFlow

8) Aliyun MaxCompute/ODPS……

9) Apache Hadoop/HDFS/YARN/MapReduce/Ambari/Avro/Cassandra/Chukwa/HBase/Hive/Mahout/Pig/Tez/ZooKeeper/Solr……

10) Spark/Spark RDD/DataFrame/Spark SQL/Spark Streaming/Spark MLlib/Spark GraphX……

11) IBM BigInsights/Cloudera CDH/Impala/Hue/Hortonworks HDP/FusionInsight……

12) Apache Flink/Spark Streaming/ Apache Storm/ Apache Trident Storm / Apache Samza ……

13) Alibaba Cloud StreamCompute/IBM InfoSphere Streams……

14) Cloudera Impala/Pivotal HAWQ/IBM Big SQL/Drill/Hive/MaxCompute SQL/Google Dremel/Google Tenzing/BigQuery……

15) Analytic DB/HANA……

16) Echarts/JavaScript/QuickBI/DataV……

2.3 大資料工程師培養目标

學生具有大資料工程師工作滿一年的水準,能夠獨立負責一些小的項目,同時具有大資料相關認證證書。能夠運用大資料技術與應用專業思想與方法、知識與技術,依據大資料工程相關的标準與規範,設計針對特定領域的複雜大資料工程問題的解決方案,包括滿足需求設計、部件選擇、工程實施流程或方案設計,并能夠在設計環節中展現創新意識,考慮社會、健康、安全、法律、文化以及環境等因素。

1) 針對特定使用者或系統需求,給出大資料應用系統的規劃與設計、部署與實施、管理與運維方案;

2) 針對特定使用者或系統需求,給出大資料應用系統的開發、測試與智能分析方案;

3) 針對特定的場景,給出應用大資料系統的設計方案;

4) 能夠在領域大資料應用系統的規劃與設計、部署與開發、管理與安全保障過程中,并在相關的法律與規範架構下,在設計或實施方案中予以必要的考慮到資訊與公共安全、經濟與社會、文化與倫理、環境保護等因素的可能影響。

2.4 大資料分析師培養目标

學生具有大資料分析師工作滿一年的水準,能夠獨立負責一些小項目的分析和營運,同時具有大資料相關認證證書。學生可以依托大資料、資料可視化、BI報表以及機器學習等工具,通過圖形化的托拉拽(程式設計能力不要求)等方式完成對商品、客戶行為日志/購買日志/物流記錄、網際網路爬取資料、第三方資料等進行資料分析、挖掘和展現等,進而找出特定規律/規則/方法等,進而進一步支援業務決策。

2.5 算法工程師培養目标

1)具有算法工程師工作滿1年水準,可以獨立完成多種資料源的預處理、資料特征工程提取、多種算法如邏輯回歸、GBDT、随機森林、神經網絡、線性支援向量機、PS-SMART二分類和樸素貝葉斯等模型的模組化過程和優化方式,以及針對這些模組化效果的評估等

2)了解項目管理基本知識,能夠協調團隊一起完成一個大資料小型項目,能否預估各個階段的風險并有合理應對方案。

3)了解大資料和人工智能演進曆程,掌握開源大資料/人工智能産品、企業級開源大資料/人工智能産品以及阿裡雲大資料/人工智能産品的優劣勢。

4)具有真實項目建構經驗,熟悉人工智能應用創新,能夠上司一個team從0到1落地一個人工智能項目。

繼續閱讀