天天看點

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

演講:謝育濤

編輯:陳萍

AI 領域有沒有好用的科研工具?謝育濤團隊打造 AI 工具顯著提升 AI 科研效率。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

3 月 23 日,在機器之心 AI 科技年會上,IDEA 研究院工程總監、AI 平台技術研究中心負責人謝育濤發表了主題演講《工欲善其事必先利其器——AI 創新的工具》。

掃碼回看

視訊位址:https://www.bilibili.com/video/BV1ki4y1k7xe?spm_id_from=333.999.0.0

以下為謝育濤在機器之心 AI 科技年會上的演講内容,機器之心進行了不改變原意的編輯、整理:

大家好我是謝育濤,來自粵港澳大灣區數字經濟研究院 (International Digital Economy Academy IDEA),非常感謝機器之心的邀請來參加機器之心 AI 科技年會,我之前都是機器之心的使用者,今天作為嘉賓和大家分享非常榮幸。前面幾位老師分享了關于 AI 方面的研究和産業化精彩内容,我借這個機會分享一下我對科研工具的思考,我分享的題目是《工欲善其事必先利其器——AI 創新的工具》。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

我主要介紹三個方面的内容:第一部分是我們生逢 AI 大時代,這是一個非常精彩的時代;第二部分是工欲善其事,在這一部分我将分享一些我們在科研工具方面的探索,希望能對各位有一些幫助;第三部分介紹我們在 AI 科研領域關于創新方面的一些思考。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

AI 時代

人工智能(AI)這個概念可追溯到 1956 年,在這 60 多年的時間裡 AI 經曆很多坎坷。我們今天已經完全生活在人工智能時代,例如手機裡的人臉識别、指紋識别等都是 AI;在疫情期間,有些人隔離在家不友善出去,外賣 APP 為你推薦喜歡的菜單,這背後也是 AI;下單之後騎手怎麼配置設定,路徑怎麼優化,路況怎麼預測等,這背後都有人工智能的影子,目的就是讓使用者快速吃到想吃的食物。AI 為我們的生活提供了非常大的便利,可以說是無處不在。前面幾位老師也分享了目前的人工智能技術已經進入全方位商業化階段,并且對各種傳統行業、各個參與方都産生了不同程度的影響,改變了各個行業的生态。

在中國數字經濟這四個字已經第五次出現在《政府工作報告》,這是非常重要的一個話題。在我看來數字化分為兩個部分:一個資訊化、一個智能化。淺層的數字化就是資訊化,深層的數字化就是智能化。

資訊化在中國已經相當成熟,比如友善快捷的手機支付,而在海外其他國家都沒有相關友善的工具,這一點中國已經走在世界前列。

智能化可以說現在正逢其時,AI 在整個國民經濟發展包括工業、金融業等起了很大的作用,假如沒有 AI 技術,數字經濟隻是一個資訊化的技術,它隻有蠻力沒有智商,而這個發展是很受限制的。如果數字經濟中沒有智能化的需求,那麼産業潛力也無法得到挖掘,對于 AI 技術而言,各位研究人員、專家學者也隻能永遠停留在象牙塔裡,技術不能落地。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

科研引領的 AI 創新

是以我們所處的 AI 時代是一個充滿了機會的時代,AI 技術的進步就是這個時代的原動力。AI 技術的進步在很大程度上是由科研人員推動的,舉例來說,在計算機視覺領域,我們從網站 paperswithcode 了解到,在 ImageNet1K 圖像分類任務上,它的 Leaderboard 英雄榜從 2011 年開始每年、甚至每個月都被重新整理,幾乎每一次的重大突破都基于研究人員發明了新的算法,訓練了新的模型,有了更多的資料,得到更好的結果。我們從早期的 SIFT,到 AlexNet,到後來的 ResNet 等等,這些模型都采用不同的資料、不同的算法,如下圖所示,圖中每一個點都是優秀論文在試圖沖擊新的高點,無論是大學、研究機構、還是各大公司,研究人員從不同的角度不斷地進行研究,提升整個 AI 的能力。在整個 AI 領域偉大的創新都來源于全球範圍高水準的 AI 研究。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

那麼中國在 AI 研究方面如何?根據研究機構釋出的資料來看,中國在人工智能領域論文的全球占比文(下圖左)從 1997 年的 4.26%,增長到 2017 年的 27.68%,遙遙領先于其他國家。同時中國的高被引論文數量在 2013 年超越美國成為世界第一。此外我們從清華大學 AMiner 團隊釋出的 AI 2000 學者榜單中可以得出(下圖右),在人工智能 20 個子領域入榜學者所在國家分布(人次),從分布來看基本上還是美國、中國競争激烈,除了多媒體和物聯網子領域中國稍微領先一點,美國在很多領域領先中國。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

總體來說,中國的 AI 科研現狀,論文數是第一,優秀的 AI 學者量是第二,科研人才總量第二,傑出人才占比比較低。根據 2017 年的資料來看,中國的人工智能人才大概是 18000 多人,占世界總量的 8.9%,僅次于美國 13.9%,位居第二;在企業人才投入方面是高強度人才投入量,基本上集中在美國企業,中國隻有一家公司華為進入了全球前 20。

第三個數字是高 H 因子,它用來評價科研人員的學術影響力,這是一個非常重要的名額,這份報告統計了前 10% 的高 H 指數學者,中國傑出人才 977 人,大約不到美國的五分之一,這個差距是比較大的。我們現在在 H 指數方面大概世界排名第 6,傑出人才比例較低。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

工欲善其事必先利其器

我們不禁要思考,如何提高科研人員的研究水準?大家有不同的解決方案,我要講的是工欲善其事必先利其器,做科研最好有一些好用的科研工具,但現實情況是我們沒有特别好用的工具,科研人員日常使用的工具相當缺乏,例如讀論文、寫論文、發表論文、評審論文、管理文獻、開會等等都缺乏相應的工具。讀論文時,大部分研究者采用比較原始的方法:列印論文,用筆在上面做筆記;寫論文也是如此,雖然我們有一些論文編輯工具,但不是很理想;發表論文、評審論文、管理文獻、開學術會議等也沒有好用的工具。以上種種都是科研人員每天都會遇到的,可是今天的工具是缺失的。

第二個缺乏交流平台「獨學而無友,則孤陋而寡聞」,如果我們讀論文時沒有可以交流的人,是非常痛苦的事情,例如我們讀論文時經常會遇到問題,這些問題或是公式、或是推論等,一般來講我們沒有可以随時咨詢的人。在網際網路如此發達的今天卻很難找到一個專注于學術的社群。如果有這樣一個社群可供大家提問、讨論,且專注于學術内容,對很多研究者來說是非常好的事情,可是今天這樣的學術社群是缺乏的。

第三個學術成果傳播不暢,現在已經有很多搜尋引擎,大家用的比較多的如百度學術、知網等系統,這些基本上滿足了我們找論文的需求。但問題是論文太多,不知道該讀什麼論文,從哪裡開始讀起,比如說今年 CVPR 2022 收錄了 2067 篇論文,這個數字是非常龐大的,想象一下怎麼可能把這些論文都讀完,甚至找出哪些論文需要閱讀都是很困難的事情。出版商也沒有特别好的工具讓讀者更好地擷取知識,更友善傳播的知識。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

打造論文社群:ReadPaper 論文閱讀平台

做科研需要工具,可是工具是缺失的。我在這裡介紹一下我們做的一些簡單嘗試,去年我們嘗試打造一個論文閱讀社群。我們做這個社群主要解決三個問題:

第一個學術交流是剛需:大家需要交流而且能夠進行深度交流,但是學術社群缺失。作為讀者你希望讀到好的論文,有問題能有人回答;作為論文作者,你希望文章被更多人閱讀,希望讀者對你的文章提出建議;機構希望能夠發現研究方向,課題是不是在正确的方向設立。但是國内外都缺乏一個活躍的學術社群。

第二個論文本身是難讀的,全球每年都發表數以百萬計的論文,然而多數論文并不好讀,尤其是對于母語非英文的研究人員來說難度更大。

第三個社群對學術研究的影響力不足,學術社群的缺失導緻社群對學術研究的影響力不足。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

我們打造了一個專業的學術讨論社群 (網址:readpaper.com),該社群在去年 11 月份正式釋出,其具備四個大方面的内容:論文搜尋、線上筆記、文獻管理、學術讨論。

第一個是論文搜尋,我們後端收集了大約 2 億篇學術論文的中繼資料,大家可以用自然語言的方式進行搜尋,這樣你在找論文、速讀論文的時候,能夠精準直達,而且使用者可以快速浏覽相關資料。

第二個精讀論文,使用者可以進入 PDF 檔案進行詳細的閱讀,也可以進行線上筆記,沉浸式閱讀體驗,實作邊讀邊記。

第三個文獻整理,這也是很多學者、研究人員普遍遇到的問題,太多的文獻怎麼樣有條理地進行跟蹤、整理、歸類,怎樣将文獻放到一起便于長期的跟蹤,甚至還可以跟大家分享,整理論文也是我們社群希望能夠為大家提供的。

第四個群讀論文,也許是導師分派的一個學習小組,也許是網上一群互不認識的人由于相同的論文自發的組織到一起,他們互相之間評論讨論、共同進步。

我們從讀論文開始打造一個學術讨論社群,這是我們想做的一件事情。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

下面我将簡單講解一下部分功能,第一個是沉浸式閱讀體驗,當我們打開 PDF 閱讀論文的時候,就進入了我們的論文超級閱讀器。我們會用一些自然語言處理技術解析 PDF 本身目錄解析就是你文獻的目錄呈現給讀者便于跳轉。引用解析則是對文中引用文獻索引的解析。我們讀論文時經常會遇到引用文獻如(23)、(36),之前我們将論文列印到紙上進行閱讀,遇到如(23)引用我們會翻到後面看該引用的具體内容,然後再回到之前閱讀的地方,這樣做非常不友善。我們有了引用解析這項功能,PDF 解析好了以後,在閱讀時當你點選(23)螢幕上會彈出一個框,框中顯示這篇文章作者是誰,标題是什麼,文章釋出時間等,甚至還可以顯示這篇文章的摘要,這樣一來你就可以停留在正在閱讀的地方,并專注閱讀,這個功能對于列印在紙上進行閱讀的體驗是無法比拟的,因為你沒有辦法引用論文的摘要資訊。我們對于引用文獻清單的解析也會展示在超級浏覽器裡面,你還可以對引用清單排序,而列印下來的論文我們不知道哪一篇是高引用的論文,但是我們的閱讀器可以幫你解決這個問題。

圖表解析也是,比如有時候列印的論文圖在第 8 頁,相關的注解文字在第 10 頁,點選解析的圖示可以把圖固定在螢幕上,圖文對照閱讀,非常友善。

第三個劃詞翻譯,目前絕大多數論文是英文的,對中國學生、學者來講還是有障礙的,劃詞翻譯即讀者劃定單詞即可翻譯成中文,友善閱讀。

文字截圖可以做筆記、可以做摘要,還可以做全文檢索,能夠讓讀者更快、更好地讀論文。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

ReadPaper 論文十問

接下來展示經典十問,我們 IDEA 創院理事長沈向洋博士說過「You are how you read」。我們可以這樣了解,閱讀的過程就是作者編碼的内容如何能夠被讀者順利解碼,資訊被讀者解碼的過程就是閱讀的過程,是以解碼過程就是形成自己認知模型的過程,是以「You are how you read」你怎麼讀就定義了認知模型。沈向洋博士根據多年在研究界、工業界的經驗,總結了經典十問幫助大家讀論文,如何通過回答這些問題真正的了解論文,帶着問題去閱讀論文可以幫助讀者有方向性的解碼作者思想。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

這個功能已經內建在 readpaper.com 裡,比如下圖展示的這篇論文已經有人回答了十問,回答問題的人花了大量時間去讀懂論文,然後進行分享。讀者通過看這十個問題的回答,就能夠快速了解一篇論文資訊,假如你一天要讀 50 篇 CVPR 的論文,這十問應該有很大的幫助。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

我隻是簡單介紹了一下我們在論文閱讀工具方面的一個簡單嘗試,我們希望為每一篇文章打造一個社群,因為我們相信每一篇文章都很優秀,文章中都有創意想法,它值得擁有一個社群,我們要為文章打造一個社群,讓天下沒有難讀的論文,讓大家讀論文更友善。

因為時間的原因,還有很多功能我沒有講解,比如論文的搜尋、管理、讨論,大家可以自己嘗試使用,此外我們釋出了 PC 用戶端,ipad 用戶端即将釋出,該系統已經有相當多的使用者,社群正在形成,我們認為在學生和論文之間我們做的這一點點事情可以幫助讀者更好地讀論文,更好地學習前人的知識,而且對于即将畢業的學生來說,怎麼樣收集資訊做報告,幫助自己寫論文,都能提供幫助。目前來看使用者還是比較喜歡我們的工具。工欲善其事必先利其器。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

重新思考學術生态

我們在 AI 時代如何從科研大國到傑出人才大國?我希望有更多的利器助力科研人才。我也在思考整個學術生态是不是有一些我們可以做的事情,在各個環節是不是可以提供更好的工具,這樣的工具對于每一個人都有幫助。我們将來做學術一定會跟整個生态打交道,這個生态的核心就是一個社群,這裡面有學生、老師、作者、讀者,論文是傳遞知識的一個橋梁,這樣的社群和生态的其他部分有着千絲萬縷的聯系,研究人員在科研機構裡面在做研究課題,科研機構有上課、讀論文、寫論文,研究人員還要發表論文、投稿,各種評審工具都有待完善,參加學術會議更是一個複雜的過程,從組織學術會議到跟進、開會、交流,每一 個細節的優化都可以幫助研究人員提升交流的效率,還有從出版商那裡如何更加有效獲得高品質的文章,在保護版權的前提下讓知識更快的傳播,這也是值得我們去思考的問題。研究人員成果商業化落地也是很重要的事情,比如說企業裡面員工自己能力的提升,科研技術如何從核心社群轉化到商業化,人才的招聘等等都是我們可以優化的事情,這中間的每一步都需要一個好的工具來助力科研人員,來提升我們的研究水準,改善整個科研學術的生态系統。

IDEA研究院工程總監謝育濤談AI創新的工具:工欲善其事必先利其器

AI 時代科研打頭陣,為數字經濟的産業智能化不斷創造新的增長空間,我想,工欲善其事,必先利其器,我們有必要重新思考整個學術生态,我也希望我們能夠打造更多的工具助力科研的發展。

繼續閱讀