天天看點

【Science】算法揭秘深度學習大牛,誰影響了誰?

2015年秋天,由微軟聯合創始人保羅·艾倫創立的艾倫人工智能研究所(allen institute for artificial intelligence)釋出了一款名為semantic scholar的搜尋服務,其瞄準的競争對手是google scholar、pubmed和其他線上學術搜尋引擎。這項計劃最初的目标是讓這款由人工智能驅動的搜尋引擎能在一定程度上真正了解搜尋出來的論文。而如今,semantic scholar有了一個新目标:衡量一位科學家或一所研究機構對之後研究的影響。

根據science報道,semantic scholar目前專注于計算機科學領域,但預計今年秋天會拓展到神經科學領域,而後再更加廣泛地拓展開去。同時,semantic scholar将不僅僅為論文排名,也會根據某一影響因素為作者、機構排名。例如,semantic scholar發現,mit是當今計算機科學領域影響力最大的機構——這并不奇怪。不過,誰是計算機科學領域影響力最大的科學家呢?

如果你要看原始引用次數最高的人,那麼計算機科學領域目前頂尖科學家是加州大學伯克利分校的scott shenker。但使用semantic scholar得出的結果是,影響力最大的是shenker的同僚——同樣在加州大學伯克利分校工作的michael i. jordan。jordan是人工智能領域的先驅,但他的名字極少為外人所知。艾倫人工智能研究所所長、semantic scholar的研發負責人oren etzioni戲稱其為“機器學習領域的邁克爾·喬丹”。

【Science】算法揭秘深度學習大牛,誰影響了誰?

使用semantic scholar搜尋michael i. jordan的結果。來源:semanticscholar.org

不發表就死亡

影響力這個因素曆來很難衡量。傳統的做法是計算論文被引用的次數,而這個資料也成了學術界評價論文的核心标準,湯森路透、elsevier等資料庫都有自己的排名。

但是,并不是所有的引用都是一樣的——作為整篇論文的的靈感源泉被引用和僅僅在實驗方法部分簡要提到一句,這兩種引用是截然不用的。是以,單純計算論文引用次數難免會描繪出一幅有誤差的畫像。研究人員也抱怨,傳統的以引用次數為基礎的評判标準助長了一股“不發表就死亡”的風氣,迫使他們有論文就盡快發表,生怕被人搶了先機,也不管論文發現重不重要,隻希望被引用次數多就好。

如今,在很大程度上google scholar決定了組織和排列學術研究的标準,而這個标準跟google搜尋引擎的pagerank算法有關。當然也有其他的方法,比如h-index,這個指數能衡量指定研究者或期刊的論文産量及其影響因子。

有人指出,學界真正需要的是更直接衡量一篇論文對其後研究所産生的影響。是以,etzioni團隊為semantic scholar增加了一個新功能,描繪“影響力圖譜”(influence graph)。資料庫裡的論文大多都是以pdf形式存儲的,對人來說很好閱讀,但對計算機而言很難了解。是以,etzioni研究團隊用機器學習算法訓練計算機,讓計算機能夠像人一樣不僅能分辨出論文的各個部分——摘要、研究方法、結果讨論,還要鑒别論文是如何被引用的。

通過比較其生成結果和人類專家的評分,semantic scholar計算機模型得到穩步提升。etzioni告訴science記者,目前semantic scholar系統還隻能衡量互相引用的兩篇論文彼此間的“直接影響”,但将來的版本會把多篇論文間的間接影響也包括進來。

【Science】算法揭秘深度學習大牛,誰影響了誰?

使用semantic scholar搜尋吳恩達(andrew ng)的結果。吳恩達在 semantic scholar 的影響力排名第二。來源:semanticscholar.org

如果你是論文作者,使用semantic scholar查詢後,你會得到一張圖表分析結果,告訴你你受誰的研究影響最大,而誰又受你的影響最大。在各項評估參數中,“速度”衡量的是過去3年以來某篇論文被引用的次數,而“加速度”則是這些引用在以多快的速度發生。etzioni告訴geekwire記者,這篇論文可能是很早以前發表的,但看加速度你能看出最近它變得很熱,很多人都在引用它。

你對誰影響最大?誰對你影響最大?

 science記者讓懷俄明大學的計算機科學家jeff clune做了測試,clune表示體驗非常有趣。他對science記者說,他可以看見對他學術生涯影響最大的科學家都有誰,還有哪個科學家受他影響最大。clune在semantic scholar上測試出的結果大多與他的預期相符——他的導師對他影響最大,他對他帶的研究所學生影響最大——但也有例外。clune發現了一個他不熟悉的名字,這個人對clune發表的論文做了深度跟蹤研究。

除了娛樂價值,clune認為semantic scholar對學界的招聘和提升也有用。clune對science記者說,在招聘新人和評審終身教授時,評審委員會必須要考慮這個人既有的工作成果(論文引用數),也需要預測每位候選人對将來研究的影響。semantic scholar緻力于通過衡量研究主體的“速度”和“加速度”揭示該領域的熱門在哪裡,其他人以多快的速度在引用某項研究成果,以及判斷這一研究是否符合主流趨勢,而這些都是評審委員會已經在考慮的問題,是以clune認為semantic scholar得出的資料會在将來得到采用。

【Science】算法揭秘深度學習大牛,誰影響了誰?

使用semantic scholar搜尋 yann lecun 的結果。來源:semanticscholar.org

但同時clune也表示了擔憂,他認為semantic scholar就像“黑箱子”:世人要是不了解這些數字都是怎麼得出的該怎麼辦呢?etzioni也在接受geekwire記者采訪時也承認,semantic scholar所用的算法并不完美,但這也是機器學習兩面性所在,不過好在你都知道程式所用的資料都是從哪裡來的。

另一方面,雖然被semantic scholar評為計算機科學領域的明星,michael i. jordan謙虛地表示,盡管科學史上有各種大家傳說,但他個人認為最能預測科學家是否成功的還是其所處的研究圈子。jordan在接受science記者采訪時表示,他自己就認識很多擁有絕妙點子的研究人員。

【Science】算法揭秘深度學習大牛,誰影響了誰?

使用semantic scholar搜尋 geoffrey e. hinton 的結果。來源:semanticscholar.org

現在這款工具的測試版已經在 www.semanticscholar.org 釋出,你可以登入自行查詢。

編譯來源:

john bohannon,who’s the michael jordan of computer science? new tool ranks researchers' influence,sciencemag.org

alan boyle,who’s hot in academia? semantic scholar dives more deeply into the data,geekwire.com

繼續閱讀