在9月9日自然語言處理領域頂級會議 EMNLP 2017的開幕式上,大會主席Martha Palmer向我們展示了一系列關于EMNLP 2017的論文錄取情況。
總的來說,這次會議共收到有效投稿論文1466篇,收錄的有323篇,錄取率約為23%。
其中長論文共有895篇初始投稿,被稽核了836篇,收錄216篇,接收率大約占26%。短論文的初始投稿共有614篇,被稽核585篇,收錄107篇,相比長論文接收率較低,隻有18%。整體來說,總共有1509篇初始投稿,稽核了1418篇,收錄323篇,接收率約23%。此外大會還收錄了9篇TACL論文。
在送出的全部論文中,如果按關鍵字來給這些論文分類的話,分别選取神經網絡、深度學習、資訊提取、語義學、文本挖掘、機器翻譯、表示學習、語義相似、文本分類等9個關鍵字。其中神經網絡和深度學習相關的論文數量遠遠超過其他幾類,分别在400篇以上(共占全部的約2/3),而其他幾類則都在100-200篇之間。這和今年其他幾場計算機領域的國際大會的分類比例類似,也說明了神經網絡和深度學習方面的研究具有非常高的熱度。(注意圖中表示的是全部稽核論文)
而另一方面,如果按送出的領域來分,大概有12個領域:
1、資訊提取、資訊檢索和問答系統(information Extraction,information Retrieval and question Answering)
2、語言和視覺(Language and Vision)
3、語言理論和心理語言學(Linguistic Theories and Psycholinguistics)
4、機器學習(Machine Learning)
5、機器翻譯和多語言(Machine Translation and Multilinguality)
6、分割、标記和文法分析(Segmentation、Tagging and Parsing)
7、語義學(Semantics)
8、情感分析和觀點挖掘(Sentiment Analysis and Opinion Mining)
9、社交媒體和計算社交科學(Social Media and Computational Social Science)
10、口語處理(Spoken Language Processing)
11、概述,生成,論述和對話(Summarization,Generation,Discourse and Dialogue)
12、文本挖掘和自然語言分析(Text Mining and NLP Applications)
在這些領域中,資訊提取、檢索和問答系統被錄取的論文篇數稍多,約有50篇;其他領域則依次遞減,最少的如文本挖掘和自然語言分析,錄取論文隻有3篇。但整體來說每個領域的錄取比例大約都在20%左右。
此外,就323篇錄取論文,如果按國别來分類,則能看出一個非常有意思的現象。如上圖所示,美國有約130篇論文錄取,其次是中國有50多篇,在然後是主辦國(今年的EMNLP在德國哥本哈根召開)德國20多篇;其他國家如英國、日本、法國、印度、愛爾蘭、加拿大、意大利等都隻有十多篇或數篇。這說明在自然語言處理這個領域,美國和中國是兩個研究中心。之是以這樣,其實和中、美兩國應用市場的需求有極大的關系。
相比于ACL(Association of Computational Linguistics)這個計算機語言學/自然語言處理方面最好的會議來說,從論文送出數量上來看,EMNLP與之不相上下,甚至逐漸有超越它的趨勢。有了數量自然就會有品質,由此也可以反映出EMNLP大會的品質也變得越來越高。
本文作者:camel