天天看點

第五屆CCF大資料學術會議在廣東深圳圓滿結束,這裡也有大資料的“廣”和“深”

2017年10月13日至15日,第五屆CCF大資料學術會議(CCF BigData 2017)在深圳市麒麟山莊舉行。本屆會議由中國計算機學會主辦,中國計算機學會大資料專家委員會和深圳大學聯合承辦。雷鋒網也作為協辦機關,全程參與會議并進行報道。

CCF大資料學術會議的舉辦目的是探讨大資料相關領域面臨的技術挑戰,共享各類技術創新思想,展示中國大資料技術的最新研究進展,交流大資料的應用成果和研發經驗。會議中以學術内容為主,也邀請了一些産業界人士共同分享真知灼見。在3天會議中,雷鋒網(公衆号:雷鋒網) AI 科技評論記者感受到大資料研究在深度學習的幫助下變得越來越“深”,而大資料研究的發展也讓它自身變得越來越“廣”。

議程方面,本屆會議設定了多個特邀演講,邀請國際知名的教授和産業界人士分享自己在大資料方面的見解和成果,在稍後的 Panel(圓桌論壇)中他們也圍繞着大資料話題展開了精彩的讨論;多個專題論壇中,二三十位嘉賓在不同的主題下介紹了自己的研究。會議也設定了論文接收和評選,共收到論文投稿273篇,錄用145篇(錄用率53%),并通過現場論文報告評出最佳基礎論文、最佳應用論文、最佳學生論文各一篇。

本屆大會邀請了四位特邀嘉賓作主題報告。兩天時間内,四場精彩的報道陸續在主會議廳進行,衆多台下聽衆也以飽滿的熱情聆聽報道并向嘉賓提問。

基于大資料的資訊實體能源系統安全節能優化

西安交通大學管曉宏教授帶來了題目為“基于大資料的資訊實體能源系統安全節能優化”的主題報道。管曉宏教授曆任西安交通大學系統工程研究所所長、機械制造系統工程國家重點實驗室主任;2000年任長江學者特聘教授,2008年至今任電子與資訊工程學院院長。管曉宏教授是IEEE Fellow,現任IEEE Transactions on Smart Grid編輯,《控制理論與應用》等期刊編委,擔任國務院學位辦學科評議組成員,主要從事複雜能源電力等網絡化系統的經濟性與安全性,資訊實體融合系統包括智能電網、傳感器網絡等,網絡資訊安全等領域的研究。演講中,管曉宏教授介紹了資訊實體融合系統在解決目前能源和環境危機問題中的重要作用;關于新能源應用的潛力和問題給聽衆帶來了新的感覺和思路。

Big Data and Deep Learning: Challenges and Opportunities

喬治亞州立大學計算機系主任潘毅(Yi Pan)帶來了主題為“大資料和機器學習:挑戰和機遇”的演講,介紹了深度學習方法在大資料處理方面的應用,這是典型的大資料的“深”。潘毅教授曆任喬治亞州立大學計算機科學系主席、生物學院副院長與主席,還是中南大學通路長江講座教授。潘毅教授的研究領域包括并行計算和雲計算,無線網絡和生物資訊,已發表200餘篇論文,共同創作、編輯43本書籍,總引用量超過8000,還在包括7個IEEE Transaction的15種期刊任主編或編委會成員。

演講中,潘毅教授結合自己團隊的多項工作介紹了深度學習方法在大資料問題中的應用以及深度學習自身問題的解決,比如數學方法替代實驗方法找到優化解決方案、新網絡架構解決梯度消失問題、高維資料如何降維應用、如何解決并行計算架構的遷移性問題等。潘毅教授也提醒大家,即便深度學習現在非常火熱,也别指望照抄現有方案就能達到好的效果,找到合适的架構才是應用中最重要的。

Broad Learning on Big Data: A Fusion Perspective

清華資料科學研究院院長、伊利諾大學芝加哥分校 UIC 計算機系教授俞士綸(Philip S. Yu)的演講主題為“Broad Learning on Big Data: A Fusion Perspective”,介紹了大資料的“廣”(“廣度學習”)的概念和相關研究成果。俞士綸教授曾長期在IBM Watson研究中心任職,上司建立了世界著名的資料挖掘和資料庫部門。俞士綸教授是ACM、IEEE Fellow,2013年獲得IEEE計算機社群技術成就獎,2016年獲得 ACM SIGKDD 創新獎(Innovation Award);2011至2017年間,俞士綸教授任ACM Transactions on Knowledge Discovery from Data主編。俞士綸教授的超過1000篇論文引用總數超過84000次,H-index高達136。

演講中俞士綸教授介紹道,解決真實世界問題往往需要多個不同的資料源,并建立多資料源學習模型。依托異質資訊網絡HIN(Heterogeneous Information Network)和MetaPath學習,俞士綸教授介紹了廣度學習綜合利用多個資料集中的資訊解決實際問題的成果,比如新藥研發、社交内容推薦、電商平台商品推薦、推文的釋出位址定位等。在聽衆問答中,俞士綸教授也表示MetaPath學習有較好的解釋性,更可以結合人類的先驗知識提高學習效率和效果。

AI系統的ABCD

現任聯想集團首席技術官、進階副總裁的芮勇博士帶來了題為“AI系統的ABCD”的演講,解析了人工智能系統中重要的A、B、C、D四個重要部分。在加入聯想之前,芮勇博士是微軟亞洲研究院常務副院長,曾在微軟工作18年。芮勇博士是IEEE、IAPR、SPIE Fellow和ACM Distinguished Scientist,曾獲ACM TOMM 2017年度最佳論文獎、IEEE Computer Society 2016 技術成就獎、IEEE Signal Processing Society 2016 年度最佳論文獎等多個諸多獎項。自2014年至今,他連續三年入選Elsevier中國高被引學者計算機學科的前三名。芮勇博士還擔任IEEE的多個國際學刊主編或編委,及ACM SIG Multimedia中國區首任主席。

芮勇博士在演講中介紹了人工智能/深度學習系統的發展曆程和他眼中重要的組成部分。芮勇博士的講解深入淺出,清晰地介紹了Algrithm算法、Bussiness行業、Computer Power計算力、Data資料四個重要部分的現狀和未來的挑戰,尤其是在Bussiness行業方面,芮勇博士也真切地分享了自己意識到“垂直行業專家+計算機專家才能造出有用的系統”的曆程。

本屆CCF大資料學術會議設立了“大資料高性能計算”、“大資料智能分析”、“大資料系統與應用”、“大資料科學教育與人才培養”四個專題論壇以及“優秀青年論壇”和“産業論壇:大資料産業化與AI應用發展趨勢”,廣泛邀請了學者與産業界人士分享自己的研究成果與學術和應用觀點,也廣泛涵蓋了大資料應用中豐富的方方面面。

專題論壇一:大資料高性能計算

分論壇主席為中山大學錢德沛教授。論壇中,西安交通大學教授、院士徐宗本介紹了大資料叢集算法 VClustering,清華大學計算機系副主任、“千人計劃”專家朱文武報告了“視訊大資料高效表達、深度分析與綜合利用”,清華大學高性能計算技術研究所所長楊廣文介紹了基于神威太湖之光的大資料分析,北京航空航天大學計算機學院院長呂衛鋒講解了“城市超腦 - 城市計算智能系統的挑戰”,中山大學教授、“千人計劃”專家羅錦興報告了以脈波影像資料為基礎的整體精準醫學。

專題論壇二:大資料智能分析

分論壇主席為北京郵電大學杜軍平教授。論壇中,複旦大學計算機學院院長、“千人計劃”專家王曉陽報告了“智能化大資料搜尋”,蘭州大學資訊科學與工程學院院長胡斌、“千人計劃”專家胡斌介紹了基于計算心理生理學的情感分析在精神健康方面的應用,山東大學計算機學院與軟體學院院長、“長江學者”、“傑出青年”陳寶權介紹了“城市場景三維感覺與智能增強”,中科院自動化所副總工程師張文生報告了“結構+統計”大資料機器學習算法與應用,北京交通大學計算機學院計算機科學系主任于劍剖析了“深度學習的能和不能”,湖南大學大資料研究中心主任秦拯介紹了基于領域知識工程的大資料分析技術與行業實踐。

專題論壇三:大資料系統與應用

分論壇主席為中國科學院深圳先進技術研究院須成忠教授。論壇中,香港理工大學電子計算機學系主任曹建農報告了跨領域的大資料處理和分析方法,武漢大學計算機學院院長胡瑞敏對三元空間大資料理論與網絡空間安全應用進行了探讨,澳洲迪肯大學博士餘水報告了“大資料網絡:挑戰和機遇”,平安科技大資料首席總監兼智能引擎部總經理、“千人計劃”專家肖京介紹了智能認知改造金融服務,中國科學院深圳先進技術研究院首席科學家、雲計算研究中心主任、“千人計劃”專家須成忠教授報告了“案例分析:資料驅動的智慧城市智能”

專題論壇四:大資料科學教育與人才培養

分論壇主席為華東師大周傲英教授。論壇中,複旦大學大資料學院副院長高衛國介紹了複旦大學大資料學院人才培養的曆程和經驗,中國人民大學計算機學院副院長李翠平報告了“資料科學與大資料技術”人才培養模式初探,西北工業大學計算機學院副院長尚學群解析了自己對資料科學與大資料專業建設的思考,廈門大學資料庫實驗室博士林子雨探讨了高校大資料課程建設中的關鍵問題,華東師範大學資料科學與工程學院教授黃定江介紹了自己在網際網路+和人工智能視野下的資料科學與工程專業建設中的探索和思考。

優青論壇

優青論壇中,天津大學計算機學院副院長胡清華、華南理工大學計算機學院副院長餘志文、東北大學計算機學院教授袁野、西安交通大學數學與統計學院教授孫劍、NVIDIA中國區教育科研行業總監袁永清等分别介紹了自己的研究課題及成果。

企業論壇

雷鋒網 AI 科技評論對企業論壇有一篇單獨專題報道,詳細請看這裡。

根據大會程式委員會介紹,本次會議共收到論文投稿273篇,經過通訊評審和會審,共錄用論文145篇(錄用率為53%),并推薦到《計算機學報》、《計算機研究與發展》、《電子學報》、《模式識别與人工智能》等十餘種校内外刊物發表。與往年相比,今年投稿的論文在品質和學術水準上都有顯著提高,論文所涉内容的深度和廣度亦有進步。

會議期間,錄用的論文以分組報告或者牆報展示的方式進行交流讨論,其中分組報道論文96篇,牆報展示論文49篇。會議中還設立了最佳論文獎,由現場報告評分選出。來自深圳大學、南京大學、東北大學的各一篇論文分獲最佳基礎類論文、最佳應用類論文和最佳學生論文獎。

最佳基礎類論文:《基于達爾文演化的高維資料隐藏特征分組聚類方法》

論文作者為深圳大學王文婷,馬力恒,劉懿鑫,潘灏,其中王文婷為青年教師。論文主要介紹了一種基于演化算法的聚類算法,用于解決超高維資料的特征組學習和聚類;論文方法的創新點在于,找到的特征組内的元素有重新分組的機會,提高了聚類效果。實驗表明論文方法可以提升人類基因組(超高維資料)聚類、尋找疾病相關性的準确率。

最佳應用類論文:《面向小目标的多尺度Faster-RCNN檢測算法》

論文作者為南京大學黃繼鵬,史穎歡,高陽。論文主要介紹了一種基于Faster-RCNN的目标檢測算法,并将其應用于小目标的快速檢測中,系統運作速度可以達到4K輸入下的25幀/秒,識别精度達到超過60mAP。論文方法的創新點在于,利用采樣變換,綜合利用高分辨率和低分辨率圖像,以半監督學習的方式顯著提高了識别精度。

最佳學生論文:《bHash:一種I/O高效的外部哈希分組模式》

論文作者為東北大學孔曉旺,張岩峰,于戈,其中孔曉旺為在讀碩士研究所學生。論文中針對目前各種基于哈希表或排序的方法不同的記憶體效率和時間效率,提出了一種綜合哈希和排序特點的bHash算法。算法分為兩個階段,先根據統計資料累積分組大小,分區檔案直接寫入硬碟,然後第二階段中把哈希表轉化為分組偏移量鍵值對。這一方法在大規模資料、有限記憶體下有較高的時間效率,而且适用于傾斜資料。論文中還采用了緩存等方法減小I/O需求,進一步改善了時間性能。

會議的最後一個環節是Panel(圓桌論壇)。主會場中,三位主題演講嘉賓潘毅教授、俞士綸教授、芮勇博士,以及香港理工大學電子計算機系教授、實驗室主任曹建農,在深圳大學大資料研究院所副所長崔來中主持下以“大資料創新與應用”為主題展開了讨論,針對大資料基礎理論創新、大資料和人工智能的關系、國内外大資料研究發展狀況給出了自己的觀點。

幾位嘉賓都認可“雲計算平台需要繼續發展”、“大資料成就了現階段的人工智能”、“國内外大資料理論研究水準差距不大但國内的研究更以應用為主導”的觀點,不過也有意見不同的時候,比如潘毅教授和俞士綸教授認為國外風投環境比國内環境好,幾個博士生的團隊很容易憑幾篇論文拿到風投開始創業;芮勇博士則認為國内的創業估值高到有點“傻”,但風格上更貼近使用者。在幾個問題中,芮勇博士也提出了“小資料的應用也很重要”、“深度學習是純data-drive,今後還需要更多symbolic人工智能的研究”等較為新穎的觀點;曹建農教授提出的“資料自身的研究缺乏科學理論”的觀點也引發了觀衆的共鳴。

在 Panel 的提問環節,來自觀衆席的一個“科技是否真的保證了人類幸福、人類安全”的問題引出了嘉賓們對科學技術的哲學思考。潘毅教授認為,科學研究一直在找技術進步和可能的危險之間的平衡點,在科學發展過程中人類需要依賴一些GDP之類的紙面名額,而這些名額也真切影響着人類的幸福。俞士綸教授認為,任何發明都有正面和負面,都可以被誤用,但不能因為有誤用的風險就不讓科技進步。芮勇教授贊同潘毅教授和俞士綸教授的觀點,并進一步解釋道,科技進步是人類的好奇心引發的,而好奇心是人類的本質屬性;人類可以制訂規則減少新技術可能的危害,但是人類的本性是難以改變的。曹建農教授表示,人的感受和他内心對事情的诠釋方法有關,每個人都有自己的标準和生活目的;而最終,技術的進步是很難阻擋的,即便抱有擔心也無法停止新技術的到來。

這最後一個問題有些“哲學”,但它确實觸及了科學和人類關系的本質。在大資料會議的最後聽到著名學者們在這個問題的想法和他們的行動應對,揭示了先進的技術開創新的可能,也展現了高水準研究者身上科技思維和人文思維的相輔相成。雷鋒網 AI 科技評論相信未來的科技發展總是會圍繞着提升人類生活的幸福和富足步步攀升。第五屆CCF大資料學術會議圓滿落下帷幕,期待明年第六屆CCF大資料學術會議上聽到更多關于科學和人類關系的思考,看到更“深”、更“廣”的大資料研究成果。

更多學術會議報道歡迎繼續關注雷鋒網 AI 科技評論。

本文作者:楊曉凡

繼續閱讀