天天看點

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

中原標準時間8月16日(美國當地時間8月15日),在加拿大哈利法克斯舉行的第23屆國際資料挖掘大會(kdd 2017)進入主會議程。kdd china在大會第一天的主會議程中組織“data science in china at kdd 2017”的分論壇,集中展現中國在資料挖掘領域的進展和華人在該領域的研究成果,雷鋒網作為特約媒體參加論壇并進行了獨家報道。

前一天開幕式上顯示的資料表示,在kdd 2017大會上,來自中國的參會者僅次于美國。在開幕式上的頒獎儀式中,不僅裴健教授、楊強教授分獲kdd創新獎和kdd傑出服務獎兩項分量最重的大獎,中國隊伍還幾乎包攬了kdd cup兩個競賽題目的前十名。此外大會的“與大咖面對面”的現場交流活動中,五位嘉賓有三位是華人,大會的開場keynote也由uc berkeley的bing yu教授演講,雷鋒網再次感受到了資料挖掘領域崛起的華人力量。

在大會頒發的資料中,雷鋒網還發現了這樣一個有趣的統計:microsoft research對近5年kdd高影響力作者進行了一個評估,如下圖所示,其中泡泡大小代表發表文章的數量,縱軸反映了論文作者在kdd發表的每篇文章引用數排名(代表文章的品質),橫軸是把不同作者論文的引用關系連城一個異構網絡,再用類似pagerank的方法計算每個作者的影響力,越靠近右上角排名越高。從圖中我們可以看到多位華人學者名字,占到了圖中高影響力作者的半壁江山。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(來源:大會資料 & microsoft research)

大牛雲集:八位演講嘉賓,37萬引用

“data science in china at kdd 2017”論壇由china chapter of acm sigkdd(kdd china)承辦。kdd china秘書長鄭宇表示,這是kdd大會上連續第三年舉辦中國主題的分論壇。論壇邀請了八位來自資料挖掘領域傑出的華人教授、科學家以及工業界精英進行了精彩的報告,acm資料挖掘領域的三位fellow韓家炜教授(2003)、劉兵教授(2015)、裴健教授(2015)也來到現場,其中劉兵教授主持了第一個議程,裴健教授進行了報告。

在微軟亞洲研究院主任研究員、kdd china 秘書長鄭宇博士的主持下,分論壇在下午1:30開始。楊強教授緻開幕詞并回顧了kdd在中國的發展曆史。他說,ai在中國和資料庫在中國都是熱門領域,但kdd相對來說知道的人卻沒有那麼多。回想1989年 kdd第一次在中國開workshop到現在,有很多先行者為kdd在中國的發展做出了貢獻。現在kdd china已擁有800名會員,在kdd上也展示了自己的力量,與包括鄭宇、周志華等在内的kdd china管理團隊努力分不開。楊強教授同樣對兩位sigkdd華人主席劉兵、裴健以及kdd 2017大會主席俞詩鵬對kdd china工作以及本次分論壇召開的支援表示了感謝。

随後的論壇分兩個議程進行。第一個議程由劉兵教授主持,楊強教授首先做了《feature engineering and transfer learning》(特征工程與遷移學習)的報告。楊強教授介紹,特征工程就是一個把原始資料轉變成特征的過程,在典型的資料挖掘過程中,特征工程是選擇資料之後的第二步,處于承上啟下的重要位置。楊強教授指出,特征比模型更為重要,因為特征對于模型來說是中性的,這也是遷移學習的基礎。楊強教授還詳細介紹了将遷移學習與機器學習結合的應用,如将使用者微信小額交易資料挖掘用于購車等大額消費的例子,在演講最後的“big data is useless unless it can deliver big feature space”的總結也得到了随後多位演講者的贊同。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(香港科技大學楊強教授)

随後來自羅格斯-紐澤西州立大學的熊輝教授帶來了題目為“talent analytics:prospects and opptunities”的報告,介紹了資料挖掘在在人力資源及企業管理的應用,包括:利用資料對人才進行評價和意願分析,以輔助升職考核、招聘等流程。熊輝教授稱,企業人力資源的資料挖掘有三個層次,包括人、企業與文化層面,目前的主要研究工作集中在人的層面,下一階段會繼續對企業及文化層面進行研究。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(羅格斯-紐澤西州立大學熊輝教授)

來自微軟亞洲研究院主任研究員鄭宇博士的報告題目為《urban computing——urban big data platfrom》。在報告中鄭宇博士介紹了城市計算機城市大資料平台在市政規劃工程中的應用,由于城市大資料存在大規模和變化性的特征,需要基于雲的城市大資料平台進行處理,通過不斷擷取、整合和分析城市中多種異構大資料來解決城市所面臨的挑戰,通過人工智能來幫助改善公共交通。在報告中,鄭教授還通過如流量預測、與貴陽市政府的合作、與基于共享自行車的自行車道規劃及車輛管理等實際工作進行了詳細介紹。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(微軟亞洲研究院主任研究員鄭宇博士)

論壇議程二由ucla的王薇教授主持。今日頭條科學家李磊博士介紹了今日頭條的新聞機器人、寫稿機器人等實際應用及在深度綜合、語言生成、語言模組化、深度學習qa系統cfo、面部識别方面的研究工作。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(今日頭條科學家李磊博士)

滴滴研究院副院長葉傑平的演講題目為《intelligent dispatch system》。葉傑平稱,滴滴的核心是一個交易平台,比對是滴滴業務中的關鍵問題,并介紹了滴滴在使用者與司機的比對從群發資訊、定向推送、精确比對的三個階段,利用機器學習提高eta準确率和預測目的地、推薦上車點等兩個創新,以及大資料預測司機服務分值、提升使用者體驗等實踐。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(滴滴研究院副院長葉傑平)

随後西蒙弗雷澤大學裴健教授帶來了《data science & ai in china industry:some personal experience》的報告。報告從人工智能産業化以及将人工智能應用到傳統行業出發,探讨如何解決供應鍊、制造業等等傳統行業資料無法自動收集、複雜和非标準化的應用場景、技術問題難以轉化成典型的ai問題等挑戰,并結合了裴健教授與華為的合作為例進行詳細介紹,包括基于華為内部供應鍊端到端優化,實作智慧化模型、風險控制、熱線客服等,希望用ai改變整個生産流程等實踐,并分享了作為學術研究者在最近一年來與華為合作的收獲。另外,裴健教授也是本屆kdd大會創新獎(2017 acm sigkdd innovation award)的獲得者。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(西蒙弗雷澤大學裴健教授)

清華大學的唐傑博士介紹了ai和深度學習在慕課(moocs)教育中的應用。值得一提的是,kdd cup 2015的競賽題目“用大資料預測moocer是否會‘翹課’”就出自唐傑博士之手,這一報告也是其後續的相關研究,并展示了通過小木機器人做慕課助教與學員進行智能互動改善學習,以及利用ladfg提升預測準确率,提升慕課教育效果的實踐。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(清華大學唐傑博士)

同樣來自清華大學的崔鵬博士則帶來了社會動力學中的模組化問題的分享。由于人的行為機理的複雜性以及動态性,而傳統機器學習方式類似黑盒,難以将社會動力學研究特征化,也難以做持續的預測,通過實體學模型及資料驅動相結合,已經可以建構一個關鍵統計名額和真實社交網絡基本一緻的社交網絡,可以對社交網絡資訊傳播進行準确的預測。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

(清華大學崔鵬博士)

在第一個議程結束後,會議組織者與報告嘉賓合影留念。這張合影可謂珍貴:組織者和嘉賓中包含兩位sigkdd主席(劉兵@2013,裴健@2017)、兩位kdd大會主席(楊強@2012,俞詩鵬@2017),六位kdd大會pc chair(韓家炜@1996,劉兵@2008,楊強@2010,裴健@2012,王薇@2014,熊偉@2018),兩位kdd創新獎獲得者(韓家炜@2004,裴健@2017),三位kdd傑出服務獎獲得者(裴健@2015,王薇@2016,楊強@2017) ,論文引用總數超過37萬,可謂彙聚了華人資料挖掘領域的中堅力量。

Data Science in China論壇:大牛雲集,掀起産學結合新高潮 | KDD 2017

照片後排左起: 清華大學副教授崔鵬、微軟亞洲研究院主任研究員、kdd china秘書長鄭宇、美國羅格斯-紐澤西州立大學教授熊輝、美國亞利桑那州立大學教授劉歡、滴滴研究院副院長葉傑平、kdd 2017大會主席俞詩鵬、今日頭條實驗室科學家李磊、清華大學副教授唐傑;

前排左起:美國伊利諾伊大學芝加哥分校教授、sigkdd前主席劉兵、美國伊利諾伊大學香槟分校教授韓家炜、香港科技大學教授、kdd china主席楊強、加拿大西蒙弗雷澤大學教授、sigkdd現任主席裴健。

(雷鋒網(公衆号:雷鋒網)注:本次分論壇議程二的主持人,ucla教授、本次kdd大會創新獎與kdd傑出服務獎提名主席、kdd 2016傑出服務獎得主王薇,因為在大會還有其他事務,在拍照後才趕到,因而不在本照片中)

随着大資料的不斷積累以及計算能力的快速發展,與其相關的人工智能研究也得到了快速的發展。如同楊強教授在本次論壇上所言,資料挖掘的核心在于“挖掘”而非“資料”,在資料量暴增的同時,與之對應的資料選擇、算法、特征工程也更重要,掌握學術前言趨勢的學術界與掌握大量資料的産業界需要更緊密合作,推動資料挖掘與人工智能的發展。

雷鋒網了解到,在諸多學術會議中,kdd屬于學術與産業相結合較為緊密的會議之一。在本次分論壇上,多位嘉賓的報告内容均與産業緊密結合,讓我們得以了解了學術界與産業界就大資料與人工智能話題技術的交流動向,以及大資料和人工智能的最新先鋒應用。祝願通過本次論壇的召開能夠擴大華人在國際資料挖掘領域的影響力,推動國内資料挖掘領域的研究和在工業界的應用和發展。

本文作者:岑大師

繼續閱讀